基于代价矩阵的C5.0优化算法及在医院客户关系管理中的应用

来源 :太原理工大学 | 被引量 : 8次 | 上传用户:sweetmeimei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
客户关系管理作为一个全新的理念,在国内的电力、营销等行业都有了一定的应用发展,但在医疗行业的应用发展还是非常少的,随着医疗体制改革的深入发展,医疗行业的客户关系管理正在成为一个热门课题。在数据挖掘的分类应用中,决策树算法是最为广泛的一种分类算法,具有算法简单高效、分类精准度高的特点,所以本次医院患者分类优先选取了决策树的C5.0算法,并且针对患者分类模型引入了代价矩阵的实现了C5.0算法的优化,从而建立误判代价较小的患者分类模型。本文首先对决策树分类算法进行了分析,深入研究了基于代价矩阵的决策树C5.0算法优化及其在医院患者分类中的应用,并且根据医院患者分类的实际应用情况,对数据挖掘模型的代价矩阵、剪枝程度和Boosting算法进行了分析研究。在代价矩阵的优化分析中引入了高代价错误误判代价值COST(高)、一般代价错误误判代价值COST(中)、低代价错误误判代价值COST(低),并且分析了误判代价取值的判定条件,最终对比分析得到COST(高)=3、COST(中)=2、COST(低)=1。在剪枝程度优化分析中分析了剪枝程度选取的两个参考值:决策树模型的复杂程度和分类准确率,通过实验对比分析两个参考值得到剪枝程度的最优值。在Boosting算法的优化分析中针对算法的迭代次数和过度拟合问题进行分析,通过测试样本的对比发现了过度拟合的问题,所以在本次建模中不能使用Boosting迭代算法。在此基础之上,对医院的住院客户进行数据取样、预处理和建模数据抽取,使用决策树C5.0算法建立了住院患者分类模型,并且用测试数据对模型进行测试分析。与此同时,将该模型应用于医院客户关系管理系统中的住院患者分类模块中,实现了医院CRM系统中的资料管理模块,能够对新入院的住院患者进行价值分类。本论文的创新点在于研究分析了全新的决策树C5.0算法,在预测分类中将误判代价考虑在内,给出了误判代价值的取值条件,建立了代价矩阵指导建模,并且实现了在模型整体错误率变化不大的情况下做到预测分类错误代价最小。在Boosting算法分析中发现了Boosting迭代算法会导致建模数据过度拟合的问题。本次建立的患者分类模型虽然具有风险度低、稳定性好等优点,但是模型在建模数据和测试数据中的分类错误率较高,分别是8.29%和8.17%,所以分类的精确度还可以进一步提高。
其他文献
ISO 9646中定义的针对路由器的测试方法已经不能满足多端口并发测试需要,为此,四川省网络通信重点实验室开展了对路由器多端口测试技术的研究工作,包括定义“多端口路由器并发穿
随着计算机应用技术和图形图像技术的深化和发展,人们日常信息成几何式的增长,可视化技术逐渐成为这个信息时代研究的热点,层次结构数据的可视化是可视化研究领域中的一个重要分
蛋鸡产业是中国禽业的主要支柱之一,从1985年开始,连续29年我国蛋鸡饲养量位居世界第一,是我国农村的一大产业,甚至是一些地区的支柱产业。与我国庞大的蛋鸡养殖和蛋品销售规模相
本文的目的是研究一种新的并行进化算法及其应用。群体智能算法是一种进化类算法,是解决优化问题特别是复杂系统优化问题的有效手段。而QPSO是一种新的、具有全局收敛性群体
自上世纪80年代起,由于计算机科学的飞速发展以及计算机技术在语言研究领域中的迅速普及和应用,使得语料库语言学成为研究主流,其中平行语料库和比较语料库已成为语料库语言
基于内容的图像检索是一种利用图像的视觉特征(颜色、纹理、形状等)进行图像检索的技术。随着计算机科学和数据库技术的发展,CBIR已成为国内外的一个研究热点。文中首先回顾了
基于HLA的分布式仿真系统强调仿真应用的互操作性和可重用性,但是它所关心的仅仅是仿真应用层中成员对象之间的交互,没有涉及仿真资源层的管理,例如:资源动态分配、资源重用等。
随着信息技术的发展,信息网格已经成为计算机科学与技术研究的重要领域。为了在异构、分布式环境中实现信息共享,使用基于SOA的思想和WebServices技术来构建信息网格已经成为
随着各种新技术尤其是信息技术在气象领域的普遍应用,气象部门产生了大量的专业数据,这些数据具有海量性、复杂性、空间特性。通过对气象业务的深入分析,发现基于文件的管理模式
集成了传感器、嵌入式计算、网络和无线通信四大技术而形成的无线传感器网络(Wireless Sensor Networks, WSN)是一种全新的信息获取和处理技术,是一种新型的无基础设施的无线