基于MapReduce的大规模数据挖掘技术研究

被引量 : 33次 | 上传用户：chenlijuan1986

【摘要】

：

网络技术的快速发展和信息共享系统的大量应用催生了大数据时代的来临,很多传统的基于单机的数据挖掘算法已经无法满足大数据的挖掘需求,如何进行高效的并行的数据挖掘成为当

【作者】

：

李秋虹

【发表日期】

：

2013年01期

【关键词】

：

数据挖掘 MapReduce 云计算

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

网络技术的快速发展和信息共享系统的大量应用催生了大数据时代的来临,很多传统的基于单机的数据挖掘算法已经无法满足大数据的挖掘需求,如何进行高效的并行的数据挖掘成为当前研究的热点。当前各种计算机应用系统处理的数据规模日渐增长和结构日益复杂,大规模图数据和大规模高维数据的出现对传统的数据挖掘方法提出了挑战。大规模图结构数据在各种应用中大量出现,例如生物信息学领域包含庞大的基因相互作用网络；WEB数据管理领域包含庞大的社会网络、WEB网页网络,社会媒体数据也多是以图的形式描述的。很多互联网上的信息如音频、视频都可表示为高维数据,在大数据背景下有效地进行图数据和高维数据的数据挖掘需要合适的分布式计算模型。MapReduce计算模型是目前最流行的一种云计算环境下的分布式计算模型,它可以将计算均匀地分布在多台异构的计算机上,并且屏蔽了复杂的并行编程,使得复杂的并行应用可以归结到两个简单的函数,map函数和reduce函数,它的高可用性、高可扩展性、高容错性以及简单性使得其受到企业界和学术界的重视。一些著名的IT公司如Facebook、雅虎等均采用Hadoop作为云计算环境中的重要基础软件。虽然MapReduce在分布式计算方面取得了巨大的声誉,但由于很多图数据和高维数据的数据挖掘算法的计算及其分布式处理往往涉及复杂的处理流程,经常需要多次迭代和大量的通信,而MapReduce通常适用于大数据集上的简单应用,导致MapReduce模型并不适用于具有局部性和迭代性的数据挖掘应用。但是其他的图处理系统,如Pregel, Hama等却不具备MapReduce优异的可扩展性和容错性,这对大规模的数据挖掘是非常重要的一个性质。为了使得MapReduce模型适用于图数据和高维数据的挖掘,本文对其进行了改造,提出了基于MapReduc e的局部迭代的MapReduce模型(LI-MR模型),并且在局部迭代的MapReduce模型指导下,研究一些具体的具有局部迭代性的数据挖掘算法,包括社会网络的权威值计算和社会网络的社区挖掘,以及高维数据聚类问题。本文主要研究内容和研究贡献包含以下几个部分。1.提出局部迭代的MapReduce模型以支持图挖掘由于MapReduce编程模型缺乏对算法迭代性和局部性的有效的支持策略,为了适应数据挖掘算法的迭代性和局部性,我们提出了局部迭代的MapRedue模型(LI-MR模型),并且通过两种方式实现了LI-MR模型的主要思想,第一种方式是扩展Hadoop系统,对其内核API进行改造以实现缓存和索引,从而支持Hadoop应用对数据的随机存取需求；第二种方式是Hadoop系统集成HBase数据库来实现缓存和索引。LI-MR模型的主要思想包括以粗粒度的数据块作为处理单位,消息通讯主要为数据块之间的信息交互；通过缓存和索引机制从上一次迭代的结果中获得对应数据块计算需要的局部信息,支持数据块的内存计算,支持算法的局部计算。2.提出局部迭代的标号传播算法大规模图的划分问题一直是人们所关注的热点问题,社会网络的社区挖掘作为图划分问题的一个应用,有很高的时效性的要求。标号传播算法(LPA)是一个时间复杂度为线性的快速社区挖掘算法,但是对于大规模的社会网络其运行时间仍然过长,本文提出局部迭代的标号传播算法运用LI-M(?)模型来解决标号传播算法的并行化问题。3.提出局部迭代的PageRank算法以往在MapReduce上运行PageRank算法,采取的方法以边为处理单位,这样导致数据在集群内的大量迁移。局部迭代的PageRank算法在LI-MR模型的指导下,将传统的基于内存的PageRank算法与MapReduce的良好的可扩展性结合起来,采用子图作为处理单位,子图内部的通讯不必在整个集群中迁移,这样,既保存了传统内存算法的效率,又得益于MapReduce的高可用性。4.提出基于局部敏感哈希函数的海量高维数据的分布式聚类方法对于海量高维数据的聚类,本文提出一种有效的基于代表点的批量处理方式,通过局部敏感性哈希函数,可以将距离近的数据点快速地聚集在一个桶中,采用桶的中心点作为代表点来代表这个桶内的所有点,通过这种代表点机制可以有效地削减聚类的数据规模。对于海量数据,需要一个较大的分类个数来满足对数据精度的刻画,对于较大的分类个数,本文通过局部敏感哈希函数来对比较计算进行裁减,尤其是对于具有较大k值的聚类,该方法可以在保证聚类质量的前提下大幅度提高聚类的效率。提高k-means运行效率的另一种方法是提高所选中心点的质量,本文针对k-means++不易于并行化的问题,提出了一种基于LI-MR模型的中心点选取方法,提高了k-means++并行选取中心点的效率。

其他文献

引导式教育在小儿脑瘫康复护理干预中的作用分析

目的探讨引导式教育在小儿脑瘫康复护理干预中的作用。方法将2016年3月~2018年2月90例小儿脑瘫患儿随机数字表法分组,对照组施行常规化护理干预,实验组应用引导式教育。比较

期刊

引导式教育小儿脑瘫康复护理干预作用

水性建筑涂料的消泡性和展色性研究

水性建筑涂料,以水为分散介质,安全环保,施工方便,以装饰为主,兼具保护功能,调节建筑物的使用功能以及各种特种功能,是目前国内外使用最为广泛的建筑装饰装修材料。本文回顾

学位

水性建筑涂料消泡剂润湿剂分散剂消泡性展色性

轻量级满夯冲击荷载在红砂岩土中的作用效应及能量消耗规律

我们国家长江以南的地区广泛分布着红砂岩,它被大量挖掘使用于填土地基。冲击荷载常用于加固此类地基,其特点是简单、高效、价格便宜。本文取赣南红砂岩土,利用击实仪,进行室

学位

红砂岩土作用效应能量消耗能量传递轻量级满夯冲击

论国际货物贸易所有权移转

基于买卖合同的货物所有权移转是动产物权变动的主要形式。理论研究对该等所有权移转问题的研究主要从物权得丧变更及其公示公信和善意取得的角度进行分析,视阈更多限于移转

学位

国际贸易所有权移转占有交付

龙泉驿区城市社区卫生服务居民满意度研究

社区卫生服务居民满意度是检验社区卫生服务质量的重要指标,反映了居民对社区卫生服务的直观感受和认可度。本课题以成都市龙泉驿区为例,对当地社区居民进行社区服务满意度调

学位

社区卫生服务满意度现状影响因素

城市四季空间—东北地区旧厂房空间再利用的研究

废弃工业厂房在城市,特别是东北工业大城市的构造中占主要地块。20世纪90年代,随着城市产业逐渐向服务业转型,出现了许多废旧工业厂房,工业废弃地。而新的城市规划有意识地将

学位

废旧厂房改造再利用室内公园室内外景观设计

国内外气浮净水技术概况

<正> 本世纪七十年代末、八十年代初,气浮净水技术已在我国得到迅速发展。给水中含藻、低温、低浊和受污染水体的净化,排水中印染、毛纺、造纸、皮革、炼油、电镀、化工、化

期刊

溶气效率溶气释放器气浮池溶气罐气浮法处理气浮净水技术

免疫性血小板减少症Treg/Th17免疫失衡及其对骨髓巨核细胞影响的研究

原发性免疫性血小板减少症(primary immune thrombocytopenia, ITP)是一种器官特异性的自身免疫性疾病,表现为血小板数量减少和出血。多种免疫途径参与血小板的数量减少,包括

学位

免疫性血小板减少症T调节细胞T效应细胞辅助性T细胞17型白细胞介素10巨核细胞

初中“数学活动”板块教学研究

为了培养出适应时代发展的人才,世界各国不断加大教育的改革力度。改革的共同点主要集中在如何使青少年具备21世纪所需要的运用现代技术收集和处理信息的能力、主动探究能力

学位

初中阶段数学活动板块教学应用意识

泡沫流体水力计算方法研究

当前,泡沫流体已广泛的应用于石油工业中,而且显示出了非常大的应用潜力。本文以泡沫流体在石油工程中的应用为背景,对泡沫流体的概念、流变性质、流变模型以及摩阻系数等特

学位

泡沫流体流变性水力计算幂律模型宾汉模型

基于MapReduce的大规模数据挖掘技术研究

其他学术论文