论文部分内容阅读
客户关系管理作为一个全新的理念,在国内的电力、营销等行业都有了一定的应用发展,但在医疗行业的应用发展还是非常少的,随着医疗体制改革的深入发展,医疗行业的客户关系管理正在成为一个热门课题。在数据挖掘的分类应用中,决策树算法是最为广泛的一种分类算法,具有算法简单高效、分类精准度高的特点,所以本次医院患者分类优先选取了决策树的C5.0算法,并且针对患者分类模型引入了代价矩阵的实现了C5.0算法的优化,从而建立误判代价较小的患者分类模型。本文首先对决策树分类算法进行了分析,深入研究了基于代价矩阵的决策树C5.0算法优化及其在医院患者分类中的应用,并且根据医院患者分类的实际应用情况,对数据挖掘模型的代价矩阵、剪枝程度和Boosting算法进行了分析研究。在代价矩阵的优化分析中引入了高代价错误误判代价值COST(高)、一般代价错误误判代价值COST(中)、低代价错误误判代价值COST(低),并且分析了误判代价取值的判定条件,最终对比分析得到COST(高)=3、COST(中)=2、COST(低)=1。在剪枝程度优化分析中分析了剪枝程度选取的两个参考值:决策树模型的复杂程度和分类准确率,通过实验对比分析两个参考值得到剪枝程度的最优值。在Boosting算法的优化分析中针对算法的迭代次数和过度拟合问题进行分析,通过测试样本的对比发现了过度拟合的问题,所以在本次建模中不能使用Boosting迭代算法。在此基础之上,对医院的住院客户进行数据取样、预处理和建模数据抽取,使用决策树C5.0算法建立了住院患者分类模型,并且用测试数据对模型进行测试分析。与此同时,将该模型应用于医院客户关系管理系统中的住院患者分类模块中,实现了医院CRM系统中的资料管理模块,能够对新入院的住院患者进行价值分类。本论文的创新点在于研究分析了全新的决策树C5.0算法,在预测分类中将误判代价考虑在内,给出了误判代价值的取值条件,建立了代价矩阵指导建模,并且实现了在模型整体错误率变化不大的情况下做到预测分类错误代价最小。在Boosting算法分析中发现了Boosting迭代算法会导致建模数据过度拟合的问题。本次建立的患者分类模型虽然具有风险度低、稳定性好等优点,但是模型在建模数据和测试数据中的分类错误率较高,分别是8.29%和8.17%,所以分类的精确度还可以进一步提高。