基于单向FP_tree的最大频繁项集挖掘算法研究

来源 :中国航天第二研究院 航天科工集团第二研究院 | 被引量 : 0次 | 上传用户:eyx001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是解决当前社会“数据丰富而知识贫乏”问题的有效途径。数据挖掘任务种类很多,其中关联规则挖掘是目前研究和应用最广泛的课题之一。  关联规则挖掘的任务是在数据库中,挖掘出一系列有趣的关联规则,指导人们进行决策,它既可以检验行业内长期形成的知识模式,也能够发现隐藏的规律。如何有效的挖掘出关联规则是首要解决的问题。关联规则挖掘由两部分任务组成:频繁项集挖掘;生成关联规则。其中频繁项集挖掘是关联规则挖掘任务的核心,也是整个任务完成效率的瓶颈所在。尤其是当前数据库规模日益庞大的情况下,如何快速有效的进行频繁项集挖掘,是众多研究者所关心的问题。  本文详细介绍了现有频繁项集挖掘的两类最典型的算法:Apriori算法、FP_growth算法。在分析这两类算法优缺点的同时,继承其中的优点,采用最大频繁项集挖掘的思想,提出了基于单向FP tree的最大频繁项集挖掘算法。该算法采用单向FP tree结构,减少了传统FP tree的指针域,减少了FP tree的搜索时间。同时,采用编码技术,避免了单向FP tree带来的空间资源浪费问题。在频繁项集挖掘过程中,采用最大频繁项集剪枝策略和FP tree的支持度计数累加特性,极大减少了候选最大频繁项集的个数和遍历事务数据库的次数。实验结果表明,改进后的算法比Apriori和FP_growth算法具有更好的性能,尤其在长项集多、稠密的数据集上,该算法效率非常高。
其他文献
该文分六章,第一章介绍了Web技术和数据库技术融合的背景及其意义;第二章对传统的Client/Server模型和基于Web的Browser/Server进行了比较;第三章讨论了几种Web数据库访问方
该文针对具有自由边界的流体动压轴承,采用有限元方法求解二维深度平均的雷诺方程,求出轴承的各种参数,并对轴承参数进行优化.以下是该文的主要内容:1.课题背景;2.流体动压原
网络技术已成为现代信息技术的主流,网络安全也已越来越引起人们的重视.该文在防火墙的设计和部署中,对现有防火墙产品进行了分类,然后分析了防火墙的路由器过滤技术和代理服
该文的主要研究内容包括:如何在分布式多媒体数据库系统DM2的基础上构建一个异构数据库管理系统,实现与流行关系数据库的互操作功能;如何在DM2上实现各种注行的异构数据库互
随着我国航天事业的不断发展,对地面系统的要求越来越高,要求缩短地面系统的研制建设周期,提高地面系统的可靠性。为了更快更好地研制地面系统,需要消息中间件的支撑,以此保
文章基于作者在学习和科研中的实际经历,介绍了Microsoft的组件技术的各个方面,并以COM和Automation为核心,紧密结合飞腾排版软件,介绍了基于其上的开发与实际应用,具有很强
该文提出了一种基于数据驱动的软件开发模型(data-driven based sftware development model--DDSD).其目的在于改善纯粹快速原型法的一些固有缺陷.该文首先介绍了课题研
True Type字体技术是广泛应用于桌面出版(DTP)系统中的曲线轮廓字技术.它具有字库占用存储空间小、还原速度快、字形描述质量高、易于进行各种几何变换等特点.曲线汉字的光栅
该文根据现代信息社会普及磁盘阵列的迫切要求,针对小型工作站及PC机,以美国SYMBIOS公司的SYM53C875 PCI-SCSI I/O处理器为核心,设计并开发成功了PCI-SCSI磁盘阵列适配器;
传统C/S结构中缺乏服务的概念,多级分布C/S结构中缺乏服务管理机制.为弥补上述两结构的不足.该文提出了一种服务管理模型-基于交易员的服务管理模型TBSMM(Trader-Based Serv