基于频繁模式树的最大频繁项目集挖掘算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:davidrandy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,数据挖掘领域受到了越来越多的关注。关联规则一直是该领域的研究热点,主要是为了发现数据之间的关联以及有趣的模式。挖掘最大频繁项目集作为关联规则的一个重要的研究内容,它不仅已经涵盖了所有的频繁项目集,而且某些数据挖掘应用仅需挖掘最大频繁项目集,因此挖掘最大频繁项目集意义重大。本文从三方面对最大频繁项目集挖掘算法进行研究,分别是对候选项目集降维的研究,超集检测方法的研究以及增量式更新算法的研究。首先,为了解决算法DMFIA(Discover Maximum Frequent Itemsets Algorithm)中初始候选项目集维数较高且挖掘较短最大频繁项目集效率低下的问题,提出了一种改进的基于频繁模式树FP-Tree(Frequent Pattern Tree)的最大频繁项目集挖掘算法FP-EMFIA(Algorithm for Efficiently Mining Maximum Frequent Itemsets Based on FP-Tree)。该算法采用自上而下和自下而上的双向搜索策略,并对条件模式基中项目的计数特点进行了分析,将一定包含或一定不包含在最大频繁项目集中的项目进行过滤,从而降低候选项目集的初始值维数。并利用挖掘出的较短的非频繁项目集对候选项目集进行剪枝,从而提高算法的效率。其次,为了解决最大频繁项目集挖掘算法中超集检测次数过多的问题,提出了一种基于索引链表的超集检测算法IL-SC(Superset Checking Algorithm Based on Index List)。该算法采用索引链表的存储结构,使得最大频繁项目集的存储变得有序化,减少不必要的超集检测操作,从而提高超集检测的效率。最后,在FP-EMFIA的基础上,提出了一种增量式更新算法FP-EUMFIA(Update Maximum Frequent Itemsets Algorithm Based on FP-EMFIA),以便高效利用之前挖掘出的结果。这样,能够大幅度降低初始候选项目集的维数,整体上提高算法的执行效率。
其他文献
网格计算是近年来研究较为热门的一项技术,它能够把整个互联网集成为一台巨大的超级计算机,实现全球范围的计算资源、存储资源、数据资源、信息资源及知识资源等广泛分布的大量
社区结构作为社会网络的一个非常重要性质,可以反映出社会网络成员个体的行为特征以及与其它个体的关系特征,发现社区结构有助于对社会网络内部规律的分析与理解,对社会网络
以神经元为基本信息处理单元的生物神经网络系统,被广泛地用来描述认知、决策和控制等智能行为方面的问题。人们在神经网络的动力系统方面进行了研究:经典的单层单向的Hopfield
在高速网络环境下,并行文件系统以其高可靠性、高扩展性、高并发性在科学与商业领域得到了较为广泛的应用。Lustre作为典型的并行文件系统采用了基于对象的存储技术,将存储对象
随着软件系统的复杂程度增加,需要在软件开发的各个阶段保证软件质量。基于UML模型测试的最大优越性在于,测试过程能和程序实现实现同步,因而成为软件测试的研究热点之一。面对
人脸识别作为生物特征识别的主流技术之一,是国内外研究和应用的热点。主流的人脸识别技术对光照、姿态等由于非理想采集条件或者用户不配合造成的变化鲁棒性较差。流形学习
近年来,网络安全问题不断凸显,病毒(Virus)的数量呈指数级增长,其危险性也在不断增加。各个互联网安全厂商分别设计开发新的安全防护产品,以加强对病毒入侵的检测工作。在这些新
图像分割是指将图像分解为多个各具特性的区域(也称为超像素)的过程。图像分割的目的是为了更直观地表达图像各个区域所包含的不同信息以及区域间的联系,图像分割结果的好坏
在中医理论中,舌头是反映人体状况的一面镜子,脏腑病变可由舌部的变化得知。传统的中医舌诊需要医生通过肉眼辨别分析,主观性强,重复率低,并受环境等因素影响。采用计算机图
随着计算机的广泛应用和网络技术的快速发展,人们对信息安全及保密性的要求日益提高。数据加密、防火墙等都是被动防御措施,已不能完全阻挡攻击者的入侵。作为一种主动防御措施