论文部分内容阅读
数据挖掘技术是解决数据丰富而知识贫乏的有效途径,当属信息科学领域的前沿研究课题之一,有关的研究和应用极大提高了决策支持的能力,它已被公认为是数据库研究中一个极富应用前景的领域。本文描述了数据挖掘的概念、功能以及发现模式的分类。在众多的数据挖掘算法中,挖掘关联规则是数据挖掘领域中的重要研究内容,其中挖掘频繁项目集是挖掘关联规则中的关键问题之一,又最大频繁项目集已经隐含了所有的频繁项目集,所以可以将发现频繁项目集的问题转化为发现最大频繁项目集的问题,因而发现最大频繁项目集对数据挖掘具有重大意义。 以前的许多挖掘最大频繁项目集算法是先生成候选集,再进行检验,然而候选项目集产生的代价是很高的,尤其是存在大量长模式的时候。本文主要在以下几个方面对基于FP-树的关联规则挖掘问题进行研究:第一是研究了FP-树的定义和构造过程以及多种改进算法,并分析了基于FP-树进行挖掘的可行性和完整性,然后提出了基于FP-树的快速挖掘最大频繁项目集的算法Max-FI(Maximal Frequent Itemset),该算法不需要生成最大频繁候选项目集。改进的FP-树是单向的,每个节点只保留指向父节点的指针,这大约节省了三分之一的树空间。试验结果表明该算法比同样基于FP-树的DMFIA算法挖掘最大频繁项目集的效率更高。 第二是研究了挖掘有效且无冗余关联规则的问题。传统算法在生成关联规则时,或者生成规则的效率很低,或者生成的关联规则之间存在着大量的冗余,或者挖掘出的规则的支持度和可信度都很高,但却是无趣的、甚至是虚假的规则,且不能产生带有否定项的规则。本文提出了一种新的算法MVNR(Mining Valid and non-Redundant Association Rules Algorithm),在该算法中,首先对频繁项集集合进行检查,删除了那些只能生成冗余关联规则的频繁项集,然后对分析过的频繁项集集合中的每一个频繁项集生成他们的极小子集集合,