基于GA的CART决策树改进算法与应用

来源 :广州大学 | 被引量 : 3次 | 上传用户:houwplanling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自20世纪中期互联网技术的不断发展,信息技术跟随着迅猛发展,用户随时随地都产生了大量的图像、文本、音频、视频等信息。如何从这些不断增长的数据中得出对人们有利用价值的信息?于是,诞生了数据挖掘技术。数据挖掘就是不断的在数据中寻找有用信息,通过各种不同的分析方式和分析工具建立起各种数学模型与数据之间的联系,然后通过对这些构建好的模型与数据进行分析以及预测。分类预测是数据挖掘中的一项重要领域,在数据挖掘中,分类预测占有重要地位。决策树算法就是分类中一种易于理解并且使用范围较广的算法,决策树相较于其他方法有预测速率快、高精度且生成的分类规则易于解释等好处,因此是分类预测中比较常用的方法。常用的决策树算法有ID3算法、C4.5算法和CART算法,ID3算法适用于处理小规模数据集且无法处理离散属性。C4.5算法改善了ID3算法的缺点,能同时处理连续属性,且在剪枝的时候加入了初步正则化思想,防止过拟合,但C4.5算法只能处理分类问题,无法处理回归问题。CART算法在此问题上进行了改进,既能处理分类问题也能处理回归问题,且用Gini系数代替信息增益率进行分裂,降低了数据的计算量。但CART算法同样有着自身的不足,CART算法是采用二分法进行分割,二分法最大的缺陷是局部最优,本文的切入点就是解决二分法局部最优的问题,创新点就是利用遗传算法全局优化的特性,通过遗传算法找到最优的分裂点,对CART算法进行优化。当数据集的特征个数偏多,训练模型的时间花销就越大,训练得出的模型就会更加复杂,那么模型的推广能力也会有所下降。通过实验证实,使用遗传算法来找到最优的特征建树,能大大的提高分类的精度。本文在构建决策树的过程中,使用的是CART算法,大多数情况下CART构建的决策树模型比其他算法构建的模型准确率更高,且当样本越大,数据量越复杂,变量越多,算法的效果就越显著。但是CART算法也有自身的缺陷,CART算法是通过二分法进行分裂,但是二分法最大的缺陷是局部最优,每一次计算只能找到当前这步的最优值,很容易陷入局部收敛,遗传算法作为全局最优搜索算法之一,其过程是通过不断的选择、交叉和变异操作,寻找到最优个体,文中是利用遗传算法代替二分法找到最优分裂点。遗传算法因具有优秀的性能,在优化问题中应用颇多,遗传算法在寻找最优分类规则中应用得较为成熟,而在决策树算法中,从本质上最终也是得到分类规则,从这方面来看,通过遗传算法对决策树改进也是可行的。虽然遗传算法也不能保证在理论上得到百分之百的最优,但是也提供了寻优的可能,且后续实验中也证明了使用遗传算法代替二分法寻找的最优分裂点能提高分类的精度。
其他文献
异形斜拉桥是近年来人们追求创新理念的产物,其外观新颖、造型优美,在城市景观桥梁中占据着重要地位,然而异形斜拉桥由于自身独特的结构造型和异于常规斜拉桥的力学特性,给设计者和工程师们带来各种意想不到的难题,同时人们对此类斜拉桥总结和研究较少,因此本文以一座异形拱塔斜拉桥——防城港市的文昌大桥作为工程背景,对异形拱塔斜拉桥在施工过程中遇到的关键技术难题进行分析研究,为该桥在实际施工中提供技术性支撑,同时
随着环境问题的日益严峻,必须要加强环境友好型社会建设。为了对标可持续发展理念,对于新能源车的研发和应用也越来越广泛。本文以并联式油电混合动力公交客车为研究对象,对其动力系统的控制策略进行了深入的研究。首先,动力系统的参数匹配是控制策略研究的基础,需要根据所研究对象的特点确定好动力系统的结构形式,根据设定好的动力性目标,在进行动力性和经济性两方面的原则分析之后,对动力系统各重要部件进行参数匹配。确定
当今,以互联网创新应用为标志的新一代信息技术正在成为经济发展的新动能,以大数据和人工智能技术引领的数字经济正在改变着传统经济模式。2018年以来,国家相关扶持政策的出
近年来,移动群智感知技术得到了广泛的关注,已经成为城市感知领域一个非常有吸引力的研究范式。在数据收集方面,移动群智感知技术系统依赖于来自大量参与者或群体的移动设备
进入二十一世纪以来,随着人们对环境保护的重视以及化石能源的减少,使用可再生能源以及相对环保的电动汽车得到了快速发展。电池的荷电状态(State of Charge,SOC)作为电池管理系统(Battery Management System,BMS)中最重要的一个参数,对保障电池的安全起着关键作用,如何提高SOC的在线估计精度成为了BMS最重要的任务。本文以三元锂离子电池的SOC估计为研究对象,对
锂离子电池性能的优劣不只取决于正负极活性材料本身,而是电池系统各部分(包括了活性材料、电解液、隔膜、导电剂、添加剂等)协同作用的结果,各组成部分共同形成了电池内部的
学位
随着岸电技术的发展,我国一些重要港口已经实施了船舶接用岸电项目的研究和建设,针对不同船型的用电机制安装各类岸电设备,具备了供应岸电的能力,解决了岸电项目存在的现实问题。供电企业和港口企业践行低碳经济的高度责任感与使命感,积极推广岸电项目,进一步开拓电力市场,开始了提供岸电上船服务的实践和探索,取得了一些宝贵的经验。但目前岸电推广还举步维艰,未能普及使用,港口、船方和供电企业等各方都存在一些困惑,岸
学位
学位