论文部分内容阅读
梯度提升决策树是一种以决策树为弱学习器的集成学习方法,可以用于分类、回归和排序任务,得益于其易于训练、可解释性高等优点,梯度提升决策树被广泛应用于垃圾邮件检测、广告投放、销售预测、医疗数据分析等各种数据分析任务。然后,在面对大规模数据集时,梯度提升决策树的训练和预测过程在时间和空间上的计算代价极高,模型的性能优化仍然存在多个方面的挑战。因此,本研究主要聚焦梯度提升决策树方法在训练时间、内存消耗以及增量式学习方面的性能优化研究。主要研究工作概述如下:(1)针对梯度提升决策树方法在面向大规模数据训练时存在内存消耗大和训练时间长等问题,开展了基于多GPU的梯度提升决策树性能优化研究,对梯度计算、分裂点增益值计算、最佳分裂点寻找、决策树更新、模型预测等训练过程在GPU上进行了优化,并基于此实现了基于多GPU的梯度提升决策树优化系统。(2)针对梯度提升决策树方法容易产生不规则内存访问和不支持增量式学习的不足,提出一种可增量式学习的梯度提升决策树模型框架,允许用户预先设计和选择合适的树形结构,将领域知识集成到模型中,使其支持并行化训练和支持可增量式学习。(3)在公开数据集上设计和开展了多个实验对所提出的模型进行性能分析,验证所提出模型的效果。针对多GPU梯度提升决策树优化模型,通过CUDA-C实现梯度提升决策树优化系统,并在8个真实数据集上进行了实验,实验结果表明,相比XGBoost、LightGBM和CatBoost基线模型,所研究的基于多GPU梯度提升决策树系统,在训练速度方面比XGBoost的GPU版本快1~10倍,比LightGBM的GPU版本快1.9~10倍,比CatBoost的GPU版本快1.5倍。针对所提出的可增量式梯度提升决策树模型,在7个开放数据集上开展的各种的对比实验结果表明,所提出的可增量式梯度提升决策树模型的预测误差与XGBoost相当,训练耗时则小于XGBoost,验证了本文模型的可行性。(4)将所提出的可增量式学习梯度提升决策树模型应用于方面级情感分析任务中,以此作为案例分析,用以证明模型对数据分析任务的可用性,并针对方面级情感分析任务,提出一个可扩充模型容量的两步框架,在SemEval 2014的两个数据集上的实验结果表明所提出的模型在分类性能上均优于基于手工特征加SVM的方法。此外,相比基于神经网络的方法,所提出的模型在电脑笔记本数据集上取得了新的State-of-the-art效果,在餐馆数据集上则取得了与现有最优模型结果相当的性能。