基于FP-tree的关联规则挖掘算法的研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:llyljl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘也称为数据库中的知识发现,受到当今国际人工智能与数据库界的广泛重视,它是从大量数据中发现潜在的、有趣的知识的过程。关联规则挖掘是数据挖掘领域中的一个非常重要的研究内容,其主要目标就是发现数据库中一组对象之间某种有趣关联或相关联系,在许多领域得到了广泛的应用。 关联规则的挖掘主要是基于频繁集的方法,相关的算法主要有Apriori算法和FP-growth算法。FP-growth算法采用不同于以前Apriori系列算法的候选产生测试方法,采取模式增长的方法挖掘关联规则,它克服了Apriori系列算法的缺陷,取得了很好的效果。但是,FP-growth算法仍然存在着一些不足,如算法的性能严重依赖于数据库的大小,挖掘关联规则时需要递归地生成和释放成千上万的条件模式树,等等。 针对Apriori算法和FP-growth算法存在的问题,本文主要开展并完成了以下研究工作: (1)深入了解关联规则挖掘的研究现状,重点研究基于FP-tree的关联规则挖掘算法FP-growth算法,分析和讨论该算法存在的主要问题。 (2)提出了一种基于投影的频繁模式树后插式构造方法并设计了相应的算法。该方法充分利用大型数据库的投影运算能力,按层来构造频繁模式树(FP-tree),有效地解决了传统的FP-tree构造中存在的问题。 (3)具体研究了FP-tree和PRIFP-tree的实现,并通过实验对两种构造方法进行对比,分析两种构造算法的性能。实验结果表明基于投影的频繁模式树后插式构造方法与传统的频繁模式树的构造方法相比较,具有更好的可伸缩性,特别是在事务数很大的情况下,效果尤其显著。 本文的研究工作是对关联规则的挖掘算法的切实可行的改进,对研究基于SQL的关联规则挖掘算法具有一定的参考价值。
其他文献
随着航空航天技术的发展,利用卫星和飞机拍摄的图像已经是人类获取地面信息的重要手段之一,遥感图像具有覆盖面积大、内容丰富等特点。本文研究的内容是基于遥感图像的匹配,
云计算的影响正与日俱增,这项新兴的科技吸引了广泛的关注是因为它具有其它任何科技所没有的优点。  转移科学工作流到云环境中,可以使得世界上不同地方的科学家像一个团队一
多媒体技术和网络技术的发展,给人们带来了丰富多彩的视听娱乐数字产品。但是由于数字产品复制不会引起质量下降,因此出现的大量盗版现象,严重地损害了生产商和著作者的积极性,数
解决Web访问延迟问题的主要方案是缓存技术和预取技术。虽然缓存技术在互联网上有着非常广泛的应用,但是随着WWW上动态内容和个性化服务的比重日益增加,缓存技术对网络性能的改
一直以来,各种煤矿灾害给我国的煤炭工业带来了巨大的经济损失,导致了多次重大的人员伤亡,给我国煤炭工业的可持续发展和社会的和谐稳定造成了极大的危害。传统的煤矿虚拟仿真技
随着计算机网络在人们生活中的广泛应用,由网络安全引发的各种问题也越来越普遍,入侵攻击、拒绝服务攻击、网络资源滥用等威胁,为计算机互连网带来了很多负面的影响,尤其1993年In
计算机和网络技术的飞速发展,为分子生物学研究提供了新的强大手段。单体型信息因其在医学特别是遗传疾病研究方面具有重要意义,引起生物与医学工作者的极大关注。但绝大多数所
随着IC技术及网络技术的迅速发展,出现了一种新的基于嵌入式技术的网络视频监控系统。基于嵌入式技术的网络视频监控系统的主要部件是网络摄像机。它使用目前最先进的嵌入式处
目前国内制造企业的数字设备普遍存在多种数控系统并存、在线编程、不能实现集成控制等问题,无法实现与企业管理信息系统的直接连通,造成现场信息的浪费。制造企业信息化的发
目前,基于ASP.NET的Web应用系统很普遍,Linux也越来越流行。把Windows上的基于ASP.NET的Web应用系统迁移到Linux上,不仅能够提供部署这类Web应用系统的新方式,而且能够进一步推动Li