Spark平台下并行决策树算法研究

来源 :西华师范大学 | 被引量 : 0次 | 上传用户:zch_kitty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是对大规模数据集进行探索的一个重要手段,它揭示了各个数据集中隐藏的规律,在不同的场景中应用这些规律可以很直观地解决面临的问题和困难。决策树分类技术作为数据挖掘方法中的一个重要分支,它的易于理解性和高度的操作自由性,使得决策树分类方法在生活的得到了广泛的应用,随着分布式系统架构的普及,决策树算法以其强大的平台适应性,在各大分布式平台上得到了并行实现,其中具有代表性的分布式平台有Hadoop和Spark。分布式并行决策树算法的出现是对传统决策树算法的一次重大变革,它把决策树模型的构建过程从原始的单机操作中解放了出来,并采用多机共同计算的方式来完成决策树的构建,多机方式的优势在于计算的任务不再集中于一台机器,而是把任务在集群中各个数据节点均衡地分配,各个数据节点相互配合共同完成高强度的计算任务,所以多机方式不会对数据节点的配置有很高的要求。此外多机方式的分布式集群中各个数据节点是相互独立的,数据节点分配到的计算任务可以并行地执行,相比于原来的单机等待资源释放型计算,分布式集群的运算效率有了很大的提升。在众多分布式并行决策树算法中,广为使用的是基于内存计算的Spark平台决策树算法(MLlib DecisionTree,本文简称MLDT)。Spark平台的数据运算速率比Hadoop平台运算速率快10-100倍,而且更加适用于处理大规模的数据集,因此使用Spark平台训练大数据集的决策树模型会更加地迅速。但Spark平台的MLDT算法也存在很多的缺点,如集群中分布式构造决策树的数据节点间的信息传递量较大造成较高的网络资源占用,以及树节点分裂时信息熵的计算次数较多等。本文主要以MLDT为研究的基础,提出了基于Spark平台的并行决策树算法(SPDT)。SPDT主要的改进有以下三个方面:首先对训练决策树的数据集进行预处理,采用按列分区的方式重新划分数据集,保持完整的属性存储于分布式集群的各个数据节点,从而在建树过程中独立地完成信息熵的计算,减少因节点间信息传递而造成的网络资源的占用。然后对存储在数据节点中的数据进行压缩,为计算任务节省更多的空间。最后采用了基于边界点类别判定的连续属性离散化方法来优化算法,减少信息熵计算的次数,并使用加权平均信息增益比作为选择树节点的标准,降低树节点的选择对多属性值的属性的依赖。实验验证结果表明,本文对算法的改进提高了分布式决策树的树模型建树的效率,并保持了与MLDT算法相似的分类精度。
其他文献
Yam producers no longer need to rely on expensive clearer cuts at winding to protect their quality. Now, USTER QUANTUM 3 brings the ultimate in connected intell
提出了一种考虑背景谐波电压变化的多谐波源谐波责任划分方法。首先,利用主导波动量法估算出系统侧谐波阻抗,然后根据背景谐波电压的波动情况,采用均值漂移算法对背景谐波电
旋锻工艺是一种近净成形加工工艺,其生产效率高,成形质量好,广泛应用于轴管状零件的生产中。而轿车空心轴无芯棒旋锻进给参数变化制定不合理,会导致内外圆度质量差,特别是出
气体放电的研究涉及到了科技发展、环境保护以及社会生产等诸多领域。气体放电过程中伴随的诸多效应在日常生活和工业制造等方面也都有重要的应用。气体放电过程中,存在大量处
针对企业声誉颇受质疑的现实困境,探寻商科育人机构应尽之责。现有的企业社会责任教育在部分商学院研究生教育层面取得一定成绩,但在本科教育阶段尚未形成体系。本文从实际工作
随着互联网、大数据、人工智能等前沿技术的极大发展,社会经济生活的方方面面正在被改变,市场竞争也越发地激烈。为了适应新形势,企业必须对市场的变化做出灵敏的反应、更高效地做出正确的决策,保持增长优势,在竞争中获得发展先机。因此,要想实现增长,企业要勇于突破千篇一律的营销模式,通过营销创新,寻找到可以实现不断增长的营销方式。目前,许多互联网公司组建起专业的增长团队,用“增长黑客”理论指导工作,实现公司经