基于FP-Tree的最大频繁项集挖掘算法研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:feiwu111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则作为数据挖掘的重要研究领域之一,主要解决的是数据之间的关联和许多其他有趣的模式。最大频繁项集挖掘算法作为关联规则算法中的一类经典算法,包含了所有的频繁项集的信息,而且某些数据挖掘应用仅需挖掘最大频繁项集。因此挖掘最大频繁项集具有十分重要的意义。但是经典的最大频繁项集挖掘算法存在一些问题:递归地产生大量条件频繁模式树;每次存储当前挖掘出的频繁项集之前都需要超集检验;更新数据库后需要重新运行挖掘算法。本文在广泛查阅国内外关联规则挖掘算法基础上,针对算法的空间效率和时间效率,提出了三方面的改进,并通过实验验证。本文的主要研究内容如下:(1)提出了单向有序的FP-Tree (OWSFP-Tree)。主要研究了OWSFP-Tree的性质、构建流程以及构造实例。另外,通过和传统的FP-Tree比较,我们可以发现该树具有以下优点:a)节约了空间资源;b)减少了算法递归的次数;c)为避免每次存储当前挖掘出的频繁项集之前都需要超集检验提供基础。(2)提出了基于OWSFP-Tree和项目表格的最大频繁项集挖掘算法(NCFP-Max算法)。主要研究了NCFP-Max算法的性质、策略、算法流程以及算法实例。通过实验验证在相同的环境下NCFP-Max算法的挖掘时间比FP-Max算法减少了50%左右。(3)提出了基于降维的最大频繁项集增量式更新算法。主要针对的是偶然问向事务数据库中增加新的数据集时,如何利用已经生成的最大频繁项集和OWSFP-Tree产生新的最大频繁项集。提出了基于降维的最大频繁项集的增量式更新算法的性质、算法过程以及算法实例,通过实验证明当事务数据库增加新的数据集时(新增加的数据集小于原事务数据集),基于降维的最大频繁项集增量式更新算法的挖掘时间要优于FP-Max和NCFP-Max算法。最后,论文对所做工作进行了总结,并提出了未来的研究方向。
其他文献
表面看来,市场机制出现失灵是因为市场本身存在着缺陷,但实质上是由社会经济制度尤其是法律制度出现了问题所引起的。一项合理完善的法律制度可以降低交易费用。然而,法律制度从
结合生产装置实例,介绍了FOCS在基于TCP/IP协议下网络通信的实现方法.特别是对系统组态、参数设置、程序开发等方面内容做了较为详细的描述.
明代自然灾害频发,政府除发放实物救助灾民外,还辅之以货币进行赈济。本文通过分析发现随着白银货币化的不断深入,明代货币赈济方式经历了从前期用钱钞到中后期用白银进行赈济的
目的探讨协同护理模式对初产妇分娩结局和产后恢复的影响。方法选取初产妇170例为研究对象,随机分为两组各85例。对照组采用常规围产期护理及健康教育,观察组在对照组基础上
由于干气回收装置可合理利用资源又能提高经济效益,所以干气回收烃类已成为石化行业日益关注的热点.论述了炼油厂干气回收烃类的工艺过程及其自动控制.
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
<正>系统总结了蜂窝夹芯复合材料整流罩的强度分析方法,涵盖了结构强度破坏,整体失稳,局部失稳,连接件破坏等多种强度破坏形式。针对复合材料整流罩提出了一种新型的静力试验
会议
珙县兴溢桑枝食用菌专合社桂香分社桑枝食用菌基地位于珙县仁义乡桂香村,距县城43km^2现流转土地30余亩,建设菇棚3000余m^2,生产用房600m^2,资产总额500余万元。现有社员91户,其中
人才资源是第一资源,高层次人才是人力资源中的核心力量。高层次人才是知识创新和科技进步的重要源泉,是实施科教兴国、中原崛起、人才强省战略的关键因素,决定着一个国家或地区
多年来,荆州农行的负债业务一直保持着良好的发展态势,在同业中竞争优势明显。但2009年以来,该行的存款面临较大冲击,出现同业增量市场份额下降、系统内增量位次下滑的现象,