基于PR-tree的多维关联规则的研究与实现

来源 :广东工业大学 | 被引量 : 4次 | 上传用户:wangbadanwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘是数据挖掘的一个重要研究分支,以从大型数据库中提取知识的主要手段,有效地来解决“数据丰富、知识贫乏”的现状,因此具有较大的理论研究与应用价值。关联规则挖掘主要是发现大量数据库中项集之间的关联关系,通过发现的关联关系来指导相关决策和行动。目前,关联规则挖掘成果颇为丰富、研究非常活跃且研究分支比较广泛。研究重点从单维关联规则逐渐扩展到多维关联规则挖掘,如何提高挖掘算法的时空效率始终是研究的核心问题。本文针对如何提高挖掘算法效率这一核心问题进行了相关理论研究,并通过实验对相关理论做了验证。本文的主要研究内容包括:1.首先对关联规则挖掘的相关概念、基本框架、相关技术和任务作了介绍。接着重点介绍了关联规则的几个经典算法——包括Apriori算法、DHP算法和FP-Growth算法,描述了上述算法的原理和频繁项目集生成过程,分析了算法存在的问题及具有的优势。然后,介绍了基于数据立方体的多维关联规则挖掘算法,描述了该算法的具体步骤、相关技术,分析了算法的特性和适应度。2.提出了基于前缀存储的关联规则挖掘算法。该算法是在结合原有的关联规则算法(主要有Apriori算法、DHP算法、FP-Growth算法)的基础上,利用数据压缩组合技术提出了一种新的使用前缀树的改进算法。其原理是,将具有相同前缀的项目集压缩为一个子集合作为一个结点,该结点下的所有项目集共同享有同一前缀集。这样,使得用于存储项目集的临时内存空间大大减少,且候选项目集直接根据结点的前缀和后缀产生,省略了项目集能否自连成功的判断时间。另外,算法增加了头链表集,使任意一个含有相同的谓词值的结点在树中通链表链接起来,方便了查找树结点。此外,由于采用分段处理的思想,不仅可以针对大量数据的单维关联规则通过分段处理在可接受的时效范围内得到最终频繁项目集,还可以有效的分步分层挖掘出多维关联规则,使得在资源条件有限的情况挖掘混合多维关联规则成为可能。其中,在挖掘频繁2-项目集时,采用类似于Hash函数的思想单独处理,由数据库直接生成候选2-项目集,提高频繁2-项目集的产生。3.结合理论研究,通过对上百万条记录实验对算法加以论证。分析实验结果,证实算法的可行性,并对算法的不足做了补充,为后期研究提供方向。
其他文献
当今,随着科学技术的不断深入发展,不同学科之间的交叉和技术渗透成为科研人员研究的热点,因为对于客观世界中的某些具有挑战性的问题只凭借单一的技术是很难解决的,往往需要
20世纪80年代以来,随着计算机、通讯技术的迅速发展,以及各种数字化、体积小、重量轻、探测精度高的新型传感器的不断面世,无人机(Unmanned Aerial Vehicle,简称UAV)的性能有
近年来,数据库技术得到了突飞猛进的发展,特别是关系数据库的应用,导致了海量的数据、有限的信息应用问题,引起了广大学者的重视,数据挖掘技术从上世纪九十年代应运而生,被用
随着互联网的广泛应用以及各种办公系统的无纸化,各种电子形式的文本文档正以指数级的速度迅速增长,如何从这些海量的文本文档中快速有效的找到有用的信息,成为信息检索领域的重
果蝇优化算法(Fruit Fly Optimization Algorithm, FOA)是一种对果蝇在觅食过程中的行为进行仿真模拟从而总结得出的一种优化算法。FOA算法根据果蝇所在位置计算其相应的味道
语义网这个概念于2000年首次由Berners-Lee提出,以往Web技术中计算机主要扮演展现信息的角色,几乎不参与信息处理,忽略计算机信息处理的作用,一方面使得Web中庞大数据无法得
交互式遗传算法是一种通过人的主观评价得到个体适应度值的遗传算法。它将人的智能评价与进化计算有机的结合起来,突破了建立被优化系统的显式性能指标的限制,大大扩充了进化
在移动通信和通信产品普及的时代,通信原理已成为各高校电子信息工程、通信工程等专业的必修课。它的辅助教学实验课程具有验证理论知识,使理论知识转化成实际电路和培养学生
离群点挖掘作为数据挖掘的重要组成部分,能够从大量复杂的数据中找到小部分与其他数据相比最不一致、显著异常的数据点,这些异常点往往包含着非常重要的信息。本文通过研究现