论文部分内容阅读
自20世纪中期互联网技术的不断发展,信息技术跟随着迅猛发展,用户随时随地都产生了大量的图像、文本、音频、视频等信息。如何从这些不断增长的数据中得出对人们有利用价值的信息?于是,诞生了数据挖掘技术。数据挖掘就是不断的在数据中寻找有用信息,通过各种不同的分析方式和分析工具建立起各种数学模型与数据之间的联系,然后通过对这些构建好的模型与数据进行分析以及预测。分类预测是数据挖掘中的一项重要领域,在数据挖掘中,分类预测占有重要地位。决策树算法就是分类中一种易于理解并且使用范围较广的算法,决策树相较于其他方法有预测速率快、高精度且生成的分类规则易于解释等好处,因此是分类预测中比较常用的方法。常用的决策树算法有ID3算法、C4.5算法和CART算法,ID3算法适用于处理小规模数据集且无法处理离散属性。C4.5算法改善了ID3算法的缺点,能同时处理连续属性,且在剪枝的时候加入了初步正则化思想,防止过拟合,但C4.5算法只能处理分类问题,无法处理回归问题。CART算法在此问题上进行了改进,既能处理分类问题也能处理回归问题,且用Gini系数代替信息增益率进行分裂,降低了数据的计算量。但CART算法同样有着自身的不足,CART算法是采用二分法进行分割,二分法最大的缺陷是局部最优,本文的切入点就是解决二分法局部最优的问题,创新点就是利用遗传算法全局优化的特性,通过遗传算法找到最优的分裂点,对CART算法进行优化。当数据集的特征个数偏多,训练模型的时间花销就越大,训练得出的模型就会更加复杂,那么模型的推广能力也会有所下降。通过实验证实,使用遗传算法来找到最优的特征建树,能大大的提高分类的精度。本文在构建决策树的过程中,使用的是CART算法,大多数情况下CART构建的决策树模型比其他算法构建的模型准确率更高,且当样本越大,数据量越复杂,变量越多,算法的效果就越显著。但是CART算法也有自身的缺陷,CART算法是通过二分法进行分裂,但是二分法最大的缺陷是局部最优,每一次计算只能找到当前这步的最优值,很容易陷入局部收敛,遗传算法作为全局最优搜索算法之一,其过程是通过不断的选择、交叉和变异操作,寻找到最优个体,文中是利用遗传算法代替二分法找到最优分裂点。遗传算法因具有优秀的性能,在优化问题中应用颇多,遗传算法在寻找最优分类规则中应用得较为成熟,而在决策树算法中,从本质上最终也是得到分类规则,从这方面来看,通过遗传算法对决策树改进也是可行的。虽然遗传算法也不能保证在理论上得到百分之百的最优,但是也提供了寻优的可能,且后续实验中也证明了使用遗传算法代替二分法寻找的最优分裂点能提高分类的精度。