基于MapReduce的分布式内嵌树模式挖掘

来源 :武汉大学 | 被引量 : 0次 | 上传用户:mengwb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从树结构数据中查找内嵌模式是一个具有许多实际应用的重要研究问题,如电子商务、生物学、用户行为预测等.多年来,有很多算法被提出来解决这一问题.然而,这些算法几乎都集中于在单机上挖掘模式.鉴于数据集规模的激增,这些解决方案就显得效率低下或缺乏可行性.本文根据输入数据类型的不同,从两个方向研究基于MapReduce的分布式环境下频繁无序嵌入树模式的挖掘:事务型数据和单树型数据.本文提出了以事务型数据为输入的分布式频繁无序嵌入树模式挖掘算法TETPM.TETPM算法分为两个阶段:准备阶段找到所有频繁的标记;迭代阶段依次从规模为k的频繁模式中以两两模式连接的方式计算出新的规模为k+1的频繁模式,并在此过程中维护每个模式的实例列表,通过两两模式的实例列表连接计算新模式的支持度.针对TETPM算法我们根据数据粒度分别提出了负载均衡方式不同的两种算法:基于模式划分数据量的TETPM-P和基于模式实例划分的TETPM-E.并在后期的实验部分比较了两者的性能,实验结果表明两者都能处理单机算法不能解决的数据规模,且TETPM-E更适合规模更大的数据集,而TETPM-P更适合于频繁模式的实例数更均衡的数据集.本文提出了以单树型数据为输入的分布式频繁无序嵌入树模式挖掘算法EtpmLtd.EtpmLtd算法以迭代的方式运行,每一个迭代分为三个阶段:枚举候选模式阶段根据已知的规模为k的频繁模式中以两两模式连接的方式枚举出规模为k+1的候选模式;本地挖掘阶段计算出每个候选模式在本数据块的实例,并通过外部子孙阶段扩展策略保证不遗漏实例;全局统计阶段根据所有实例统计出全局的支持度.我们在EtpmLtd算法的基础上提出了两个优化策略以提升运行效率和降低通信消耗.后期的实验结果表明EtpmLtd算法能处理单机算法不能解决的数据规模,且优化策略能带来明显的性能提升.
其他文献
CuZr基金属玻璃由于其出色的塑性变形能力以及较大的玻璃形成能力,因而具有广泛的应用前景。本论文以Cu42Zr42Ag10Ti6非晶合金为研究对象,采用陶粒轧制和深冷处理两种工艺对
Steven Vickers将拓扑的方法与逻辑理论的结果相结合于专著《Topology via Logic》,建立了拓扑系统理论,并将这一理论应用于计算机理论的研究.Quantale是由Mulvey在1986年研
土地流转能够优化土地资源配置,推进农村剩余劳动力转移,推动城乡融合发展。党的十七届三中全会提出完善土地流转市场的体制机制,发展多种形式的适度规模经营;十八届五中全会
液电冲击清洗羊毛技术是将液相放电技术对羊毛进行清洗。液相放电技术是对在液体介质中放电所产生的强电场、紫外光、冲击波、超声空穴、活性物质等物理化学效应的应用。本文
红外光谱是现代分析科学不可缺少的工具,广泛应用于化学、材料、环境、生物医药、农业等领域的定性、定量和结构分析。通常,红外光谱法要求待测试样品是稳定的,样品中物质的
非线性方程广泛出现在数学,物理,化学,生物等科学和工程领域。近些年来,人们将物理、化学、生物、工程技术、经济等科学领域中的一些偏微分方程问题离散化为具有特殊矩阵结构
大数据分析带来的巨大商业价值推动了大数据分析行业的蓬勃发展。但由于数据分析人员对大数据的认知相对滞后,并且分析经验不足,严重制约了大数据分析的有效性与准确性。为帮
尼古丁作为一种有毒的危险废弃物,给人们的生存环境带来了极大威胁,从烟草废弃物中去除尼古丁或者将其转化为有价值的化合物显得尤为重要,而微生物处理方法因其快速、价廉等
过氧化氢(H2O2)是人体众多活性氧中非常重要的一种,在许多生理过程中起着重要的作用,人体内H2O2含量的异常与许多重大疾病之间存在一定的关系。近些年来,药物诱导的器官损伤已
下扬子地区位于扬子板块的东部,在地理位置上包含江西东部、安徽、江苏、上海、浙江一部分,是我国重要的沿海经济区之一,也是我国重要的矿集区之一,其中最为著名的长江中下游