论文部分内容阅读
数据挖掘是一门新兴的交叉学科,涉及到数据库技术、机器学习、统计学、模式识别、神经网络、人工智能、数据可视化等多个领域。目前它已成为数据处理和分析研究中最活跃、最令人兴奋的领域之一。
关联规则是数据挖掘研究中一个重要的研究课题,其主要的研究目的是从大型数据库中发现属性间存在的隐藏的、有趣的关系。频繁项集挖掘是关联规则挖掘的第一步,也是影响总体性能最关键的一步。频繁模式树(Frequent Pattern tree,FP-tree)是一种高效的频繁项集挖掘数据结构,对于最大频繁项集(MaximalFrequent Itemset,MFI)的挖掘的也是近年来的研究热点。因此,本文针对基于FP-tree的最大频繁项集的挖掘算法展开了研究,主要包括以下几部分工作:
首先,本文叙述了相关工作的背景知识。分析了当前数据挖掘和关联规则挖掘的研究现状、相关的概念与现有的技术,并且在分析了最大频繁项集挖掘算法的研究现状以后,详细阐述了经典的最大频繁项集挖掘算法FP-Max及其改进快速算法FP-Max*的思想,指出了他们的优点与不足。
其次,本文提出了扩展FP-tree的概念,紧接着提出了基于扩展FP-tree的最大频繁项集挖掘算法FP-MFI*。该算法利用最长路径的特性,使得算法不需要对含有最长路径的项建立条件FP-tree,加上快速的FP-tree构造算法的应用,从而达到降低算法时间复杂度的目的。作者在不同疏密程度的公共数据集上运用FP-MFI*进行最大频繁项集的挖掘,实验结果表明该算法在稠密型数据集上挖掘最大频繁项集比FP-Max*更有效。
另外,针对上面算法都需要在对头表中的项逐项处理过程中必须生成条件FP-tree的问题,应用了排序FP-tree这一数据结构,并且利用排序FP-tree的性质,提出了SFP-MFI*算法。这个算法省去了在挖掘FP-tree时构造条件FP-tree这个繁琐的过程,使得算法的时间复杂度大大降低。实验结果表明该算法在稠密型和稀疏型数据集上的效率都高于FP-Max*。
最后,本文对研究工作进行了总结,提出了今后进一步的研究方向。