论文部分内容阅读
在新的世纪,挑战与机遇并存,可以说利用并驾驭所产生出的海量数据关系着各个行业未来的发展。在大数据领域的深入探索可以更宏观的分析数据模式,发现潜在规律并对未来趋势进行合理预测,从而可以洞察到更为深刻、有效、全面的信息。数据挖掘相关算法的研究,可以说是兼具科学研究价值与实用价值。本课题在经典的决策树C4.5算法基础上,利用Apriori关联规则算法将数据源属性间的关联度结合到后期决策树的计算中。传统的C4.5算法对选择分裂属性时只是考虑待测属性与类属性之间的相关性,忽视了非类属性间的关联程度,而这种关联程度决定了属性间冗余度的大小。为了能够降低冗余带来的影响,本文运用信息增益的思想对待测属性和其他非类属性进行度量,并加入到原始的算法中,从而生成更加可靠的分裂属性。另外在决策树模型的构建过程中,针对属性涵盖信息量不足的情况,论文同时也采用了关联规则Apriori算法生成一系列强规则,并根据提出的新属性选择标准,从这些强规则中继续筛选出新的属性并加入到原始属性集合中,达到扩充信息量的目的,进而使C4.5算法预测的准确率得到提升。一个样例中包含的信息往往是多样而丰富的。利用传统的决策树算法,我们可以知道"属性-分类"的关联程度,但属性间的关联程度是一种对数据集的横向分析,通过分析两个属性间的关系可以使我们的分析框架更为立体,结果更具有可用性。最后,本文将该方法应用到了实例中,利用历史数据找出影响健身场馆顾客入会的主次因素,结合相关属性建立模型并进行预测,发现那些有兴趣并且有较高价值的客户群体,进一步说明算法在实际场景中的实用价值。