梯度提升决策树性能优化研究

来源 :广东外语外贸大学 | 被引量 : 2次 | 上传用户:dota_dk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
梯度提升决策树是一种以决策树为弱学习器的集成学习方法,可以用于分类、回归和排序任务,得益于其易于训练、可解释性高等优点,梯度提升决策树被广泛应用于垃圾邮件检测、广告投放、销售预测、医疗数据分析等各种数据分析任务。然后,在面对大规模数据集时,梯度提升决策树的训练和预测过程在时间和空间上的计算代价极高,模型的性能优化仍然存在多个方面的挑战。因此,本研究主要聚焦梯度提升决策树方法在训练时间、内存消耗以及增量式学习方面的性能优化研究。主要研究工作概述如下:(1)针对梯度提升决策树方法在面向大规模数据训练时存在内存消耗大和训练时间长等问题,开展了基于多GPU的梯度提升决策树性能优化研究,对梯度计算、分裂点增益值计算、最佳分裂点寻找、决策树更新、模型预测等训练过程在GPU上进行了优化,并基于此实现了基于多GPU的梯度提升决策树优化系统。(2)针对梯度提升决策树方法容易产生不规则内存访问和不支持增量式学习的不足,提出一种可增量式学习的梯度提升决策树模型框架,允许用户预先设计和选择合适的树形结构,将领域知识集成到模型中,使其支持并行化训练和支持可增量式学习。(3)在公开数据集上设计和开展了多个实验对所提出的模型进行性能分析,验证所提出模型的效果。针对多GPU梯度提升决策树优化模型,通过CUDA-C实现梯度提升决策树优化系统,并在8个真实数据集上进行了实验,实验结果表明,相比XGBoost、LightGBM和CatBoost基线模型,所研究的基于多GPU梯度提升决策树系统,在训练速度方面比XGBoost的GPU版本快1~10倍,比LightGBM的GPU版本快1.9~10倍,比CatBoost的GPU版本快1.5倍。针对所提出的可增量式梯度提升决策树模型,在7个开放数据集上开展的各种的对比实验结果表明,所提出的可增量式梯度提升决策树模型的预测误差与XGBoost相当,训练耗时则小于XGBoost,验证了本文模型的可行性。(4)将所提出的可增量式学习梯度提升决策树模型应用于方面级情感分析任务中,以此作为案例分析,用以证明模型对数据分析任务的可用性,并针对方面级情感分析任务,提出一个可扩充模型容量的两步框架,在SemEval 2014的两个数据集上的实验结果表明所提出的模型在分类性能上均优于基于手工特征加SVM的方法。此外,相比基于神经网络的方法,所提出的模型在电脑笔记本数据集上取得了新的State-of-the-art效果,在餐馆数据集上则取得了与现有最优模型结果相当的性能。
其他文献
宜万铁路越江工程地质勘察中 ,水上勘探覆盖层中护壁采用泡沫泥浆跟管方式 ,着重对泡沫泥浆的应用进行了简单的分析、比较和总结
甜瓜是重要的园艺经济作物,是除了番茄以外的另一种可供选择且非常重要的研究肉质型果实发育的模式植物。本研究以甜瓜品种河套蜜瓜(Cucumis melo L.cv.Hetao melon)作为实验
通过考虑离心力对钻柱屈曲的影响,运用能量法研究了钻柱最大转速与正弦屈曲时临界轴向力间的关系,进而得到了转速-轴向临界力的数学模型.综合考虑钻柱惯性离心力和自重的影响
对不动产测量的相关工作进行有效统筹意义重大,将与不动产测量相关的最新技术作为重点研究对象,通过对相关技术进行简要描述,详细介绍新技术在测量中的应用案例,提高大众对相
[摘要]目的:探讨果酸联合丹参酮治疗寻常性痤疮的疗效。方法:将患者随机分为治疗组和对照组,治疗组给予口服丹参酮,同时每隔3周进行一次果酸治疗;对照组以同等剂量口服丹参酮治疗。治疗结束后对比两组患者疗效。结果:治疗组总有效率为86.67%,对照组总有效率68.00%,两组疗效比较差异具有统计学意义。结论:果酸联合丹参酮治疗寻常性痤疮疗效较好,安全性高,值得临床推广应用。  [关键词]果酸;丹参酮;寻
目的:探讨个性化矫正上睑皮肤松弛的手术方法及疗效以获得最佳临床效果。方法:2011年5月至2015年4月,按照个性化特点,对308例上睑皮肤松弛患者进行手术矫正,随访并评估术后效