基于改进FP-树的最大频繁项目集研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:lsp110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是当今人工智能和数据库研究方面最富活力的领域之一。数据挖掘是指从大量的数据中发现潜在的、有用的知识的过程。关联规则挖掘则是数据挖掘的一个最主要研究内容,而如何提高挖掘算法的效率是关联规则数据挖掘的核心问题。FP-growth算法是目前最有效的频繁模式(Frequent Pattern,FP)挖掘算法之一,由于其在挖掘最大项目集时要递归的生成大量的条件FP-树,存在时空效率不高的问题。本文通过研究,结合改进的FP-树,提出了一种快速挖掘最大项目集的算法。该算法利用改进的FP-树是单向的且每个节点只保留指向父节点的指针,可以节约了大量的存储空间;同时引入项目序列集和它的基本操作,使挖掘最大频繁项目集时不生成含大量的候选项目的集合或条件FP-树,可以快速的挖掘出所有的最大频繁项目集。实例分析算法是可行和高效的。敏感性关联规则的隐藏在当前数据挖掘领域中是一个重要的研究问题,目标是在保证敏感规则不被挖掘出的条件下,最大程度地保持原始数据集的其他特征。原有的方法基于对原始数据集中事务的修改,会产生大量的I/O操作。为了提高对敏感数据的保护程度和挖掘结果的准确性,本文利用FP-树存储了与事务数据库相关的全部信息,提出了一种快速隐藏敏感性关联规则的方法:首先快速挖掘出最大频繁项目集,确定敏感性关联规则,然后删去支持敏感性规则的频繁项目集,并对FP-树进行相应的更新,根据对更新的FP-树反向挖掘生成新的不包含敏感关联规则的事务数据库。实例和理论分析表明,该方法是正确和高效的。
其他文献
软件测试是软件产品开发的重要环节,它直接关系到软件产品的质量、进度和成本。当前,程序正确性证明还不能成为软件质量保证的有效手段。在这种情况下,软件测试在将来相当长
本文对现有的语音识别技术发展现状进行了分析,研究了语音识别的基本理论,包括语音信号生成的数学模型、预处理、端点检测和特征参数提取。在此基础上,讨论了语音识别系统实
随着网络技术的飞速发展,计算机网络已经渗透到社会生活的各个方面,随之而来的网络安全问题也越来越引起人们的关注。相对于静态的防火墙技术,以数据分析为基础的、动态的入
假冒伪造给世界经济造成了巨大损失,为了维护经济秩序的正常运行,很多研究人员结合电子、信息、生物和新材料技术开发了多种防伪产品。实践表明,目前大多数防伪产品并不能真正起
本文针对高等教育自学考试命题资源之间的质量和命题人员水平差异,造成接口众多、访问性差、安全性差等多方面的结局,从而形成了一个个的“信息孤岛”,在这样的技术应用背景
由于医学影像本质上具有模糊性、不均匀性和易受噪声污染等特点,如何对所获得的医学影像进行后处理,得到更有诊疗价值的信息就变得尤为重要。本文研究了一种新的时频分析方法
在过去的十几年里,全球移动通信发展迅速,除了单一的话音业务外,数据业务也获得了极大的增长。然而,任何单一技术的无线网络都不能满足未来人们对移动通信以及普适计算的需求
Web2.0时代的信息共享和在线协同让每个用户不但可以从互联网上获取各种信息,还能自由地发布各种信息或对已有数据添加标注。一种普遍的应用就是对论坛上发布的文章添加标签
移动学习是远程教育的新手段,是无线通信网络技术与移动计算技术相结合的产物。移动学习是数字化学习的全新方式,它突破了传统学习对时间和空间的限制,让随时随地的学习成为
随着网络技术的日益成熟,Web的飞速发展使其成为了一个浩瀚而复杂的巨大数据源。按照数据蕴藏的深度,整个Web可以进一步划分为Surface Web和Deep Web,目前Deep Web中的信息量