基于MapReduce的分布式关联规则挖掘算法研究

被引量 : 0次 | 上传用户:tintin123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘的研究范畴中,关联规则挖掘算法是至关重要的一个分支。关联规则算法因其目的明确、实现灵活、求解方便有效、应用范围广泛等特点成为挖掘数据深层价值的重要手段。它的应用在互联网飞速发展的今天拥有更加突出研究意义。信息化迅速加快的今天,数据呈现出爆炸式的增长,此刻,分布式关联规则算法有了更广阔的发展空间。本文先分析了传统的关联规则算法,随后着重研究了分布式条件下的关联规则算法。论文采用目前较为成熟的Hadoop分布式平台,对分布式关联规则算法的改进提出了全新的思路。针对目前基于MapReduce分布式关联规则算法的不足首先引入了全局剪枝策略,提高了算法效率。然后运用频繁矩阵存储的方式减少了内存的消耗。首先,在全面了解关联规则算法背景和研究现状之后,针对现有算法无法处理大规模数据以及分布式数据的缺点,应用Hadoop平台实现对规则和知识的发现的过程。应用MapReduce计算模型可以有效地解决数据分块处理运用多台计算机协同处理海量数据的问题。使得以前难以解决的问题变得简单。其次,针对现有的MapReduce关联规则算法,提出了大规模数据分布式处理的MPAOR(MapAprioriOneReduceAlgorithm)算法,本算法在实现了已有的MPAriori(MapReduce Apriori Algorithm)算法的基础上加入了全局剪枝的技术,使得计算频繁项集的计数量再一次减少,同时论文把频繁矩阵的存储方式加入到分布式关联规则算法中,提出了MapReduce计算模型的频繁矩阵存储的MFMDAP(Map Frequent matrixDistributed Apriori Algorithm)算法。实验表明论文提出的算法提高了算法的效率,并且节省了内存的使用量,这有利于大粒度数据的计算和存储。在实验中验证了算法的有效性。最后,对全局剪枝的分布式频繁项集算法(MPAOR)和基于频繁矩阵的算法(MFMDAP)的优点和不足进行说明,总结了论文研究的成果和以后的研究方向。
其他文献
党的十八大报告指出,科技创新是提高社会生产力和综合国力的战略支撑,必须摆在国家发展全局的核心位置。海事机构作为国家重要的行政执法监督机构,代表国家行使水上安全监督
现阶段我国经济和社会的发展为各行业的进步提供了有力条件,作为我国的支柱型产业,建筑行业对于我国经济增长起到了至关重要的作用,同时也有了较大的突破和发展,但在工程质量
内部控制问题已是当今经济学和管理学领域的一个热点问题,受到广大学者的普遍关注。国家财政部及五部委还先后发布了《企业内部控制基本规范》、《企业内部控制应用指引》、《
农业产业链式困境表现在目标多元、路径依赖、博弈失衡等多个方面,仅仅依靠单个"结点"治理难以有所突破,应从产业链整体着手,系统研究农业产业链的圈层、流径、功能,分析链式
基金资助:国家自然科学基金项目(No.61263046);江西省自然科学基金项目(No.20122BAB201037);中国航天科技集团公司航天科技创新基金资助项目(No.CASC201102)。基于动态背景的视
中国从上个世纪八十年代改革开放以来,国家经济发展突飞猛进,人民生活水平改善,消费的需求层次提高,良好的医疗环境更是位居此列。国际集团都看好中国既是了制造大国,又是消费大国
现今时代是一个科技、经济、信息化高速发展的时代,随着计算机技术的普及同时第二版的IEC61850发布,在智能变电站的建设领域许多的高级应用功能得以实现,这其中在一些相对高端的
在当前社会经济快速发展的背景下,建筑行业也得到了较好的发展,建筑工程项目建设数量也不断增多,并且工程的规模也不断扩大,当前建筑项目管理的过程中使用传统的管理方法已经
<正>项目地点:中国台湾新北市项目面积:166坪设计师:唐忠汉设计公司:近境制作主要材料:石材、铁件、玻璃、镀钛、不锈钢、钢刷木皮、盘多磨纵目远观,一目全然。以空间为框,取
期刊
未知环境下自主移动机器人避障研究是移动机器人研究领域的核心内容之一,它的主要任务是在一个外部环境未知的情况下,机器人自主完成从起始点到目标点的路径选择,且该过程中要求