关联规则挖掘算法的设计与实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:wdwd521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是解决数据丰富而知识贫乏的有效途径,当属信息科学领域的前沿研究课题之一,有关的研究和应用极大提高了决策支持的能力,它已被公认为是数据库研究中一个极富应用前景的领域。本文描述了数据挖掘的概念、功能以及发现模式的分类。在众多的数据挖掘算法中,挖掘关联规则是数据挖掘领域中的重要研究内容,其中挖掘频繁项目集是挖掘关联规则中的关键问题之一。又因为最大频繁项目集已经隐含了所有的频繁项目集,所以可以将发现频繁项目集的问题转化为发现最大频繁项目集的问题。本文主要对挖掘频繁项目集与挖掘最大频繁项目集的问题进行了研究 先前的挖掘频繁项目集算法分为基于Apriori算法和FP_growth算法两类。基于Apriori算法都需要先生成候选频繁项目集,再对其进行检验以判断其是否为频繁的;基于FP_growth算法则至少都需要扫描两遍数据库以建立FP-tree。然而扫描数据库和检验候选项目集是否为频繁项目集这些过程所需代价都是很高的。本文首先提出了一种改进的挖掘频繁项目集的算法IODLG,主要从以下几个方面改进了算法挖掘效率。第一采用位阵存储技术即为每个项目赋一个比特值,此技术使得算法只需扫描一遍数据库,就可得到挖掘频繁项目集所需的全部信息,并可以加快检测候选项目集的速度;第二定义项目值以取代项目名,项目值可以更好的与项目的比特向量建立关联;第三为关联图中的每个节点定义出度与入度值,可以有效减少候选项目集的个数。经试验证明,通过以上三个方面的改进,IODLG算法可以大大提高算法挖掘频繁项目集的效率并减少系统的存储空间。 对于最大频繁项目集挖掘方面,本文在充分研究已有算法的基础之上,提出了一种新的基于FP-tree的挖掘最大频繁项目集算法MFI-FP。算法主要包括一下三个部分:首先定义新FP-tree结构,说明其构造过程并分析其性质。采用新FP-tree可以使算法只需扫描一遍FP—tree即可得到挖掘最大频繁项目集所需的信息,同时扫描过FP-tree后,可以立即释放FP-tree中大量的无用节点以节省空间;其次,提出了一种新的存储最大频繁项目集的数据结构,这种结构可以减少存储最大频繁项目集所需的空间,提高挖掘的效率,尤其适用于长模式的频繁项
其他文献
举剑治腐力千钧,风清舵正行自远。近年来,柳州市纪委监察局认真贯彻执行党的反腐倡廉路线方针,结合柳州市改革与发展的实际,围绕经济建设这个中心,解放思想,创造性地开展党风
随着多处理器和多核计算的兴起,并发程序的验证逐渐成为学术界广泛关注的热点问题之一。然而,由于并发程序本身存在的线程交互性,使得程序的执行不具备确定性,即在相同的输入
随着移动通信的普及,手机或其他手持移动网络通信设备(统称移动终端,本文交叉使用二者)成了人们在网络世界的“身份证”。对移动终端的搜索和定位需求也随之而来,本课题通过研究移
近年来,伴随着不断发展的微机电(Micro-Electro-Mechanical System,简写为MEMS)传感器技术、信息融合理论、普适计算技术等,人机交互技术也发生了翻天覆地的变化,由以往的人去适应
2008年4月15日,对于辽宁电视台来说,可以算是一个新的起点。辽宁电视台广告传播中心“诚创天下,携手共赢”晋江站恳谈会于当天成功举办。这次恳谈会可以说是辽宁电视台在晋江
现有的Internet的三层/两层的用户数据传输平台的传输效率低下、难以对未来不同服务质量的应用数据流提供服务质量保障。同时,密集波分复用技术为将为未来电视网、电话网和传
汶川特大地震已过去快三年的时间了.面对这场空前灾难,政府信息公开程度前所未有,我国媒体及时、透明、全面地呈现了地震所造成的巨大灾难,呈现了党和国家领导人在灾害发生后
目的 分析双切口入路治疗复杂胫骨平台骨折的临床疗效.方法 选择我院2015年8月至2019年8月收治的82例复杂胫骨平台骨折患者作为研讨对象,根据不同的手术入路方法将患者分为两
随着对国内各厂商对经营分析和决策支持重视程度的加剧,作为经营分析、决策支持、数据挖掘等方面的基础,数据仓库的建设越来越引起人们的重视,数据仓库建设的好坏,直接影响到经营
随着人们生活品质的不断提高,对移动通信的要求也越来越高,特别是在数据传输业务方面,现在的移动通信系统的数据传输速率已逐渐不能满足用户的需求,未来的第四代移动通信系统需要