基于频繁模式树的关联规则算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:xiaobailove2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是近年来迅速发展的信息处理技术,从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它涉及数据库、人工智能、机器学习、模式识别、知识工程、面向对象、信息检索和可视化等一系列技术。关联规则挖掘作为数据挖掘领域的一个重要研究分支,它的任务是发现所有满足支持度阈值和置信度阈值的强关联规则。关联规则挖掘算法是关联规则挖掘研究的主要内容,迄今为止已经提出了许多高效的关联规则挖掘算法。本文对经典的Apriori和AprioriTid算法以及不产生候选集的FP-Growth算法进行了分析和研究。FP-Growth算法比Apriori算法在性能上有了很大提高,它仅需要扫描数据库两次,并且避免了产生大量的候选项集。但FP-Growth算法主要的瓶颈之一就是空间开销大。为了节省空间,提高频繁项的发现效率,本文对传统的频繁模式树和项头表进行了优化,采用动态构造哈希链地址的方法来构造项头表,FP-Tree的每个结点只存储该项在项头表中的地址,避免了在地址上出现空指针,节省了存储空间的开销,同时增加树结点的域实现了方便的双向遍历。此外还通过对事务数据库按一定的规则进行了划分,得到若干个数据库子集,然后分别对每个数据库子集进行数据挖掘,因而占用内存小,解决了内存无法装入频繁模式树的问题,使数据挖掘得以顺利进行。最后通过实验对基于频繁模式树的关联规则挖掘的优化算法与传统的频繁模式树的FP-Growth算法进行了比较,实验结果表明在挖掘大量数据信息时更有效。
其他文献
图像修复就是一个在静态图像或视频图像中的指定区域,填入丢失信息的过程。它使修复后的图像区域能从视觉上融入整幅图像中,让观察者无法察觉图像曾经缺损或己被修复。图像修
当前语义Web中基于本体的应用越来越多,这意味着本体越来越受到重视。本体的长处在于能提供语义信息,正是这一能力使得万维网更具丰富的内容,以及提供更多的功能。在万维网最
随着Web上数据信息量的不断增长,基于关键词的传统信息查询方式越来越不能满足用户的需要。本文提出了一种基于语义逼近的信息查询方法和分布式下的多代理同步更新策略,并进
随着互联网技术的迅猛发展,网络安全问题已经成为信息时代人类面临的重大挑战。网络安全问题产生的根本原因之_是因为操作系统或者应用程序存在的漏洞。消除漏洞的根本方法就
学位
故障诊断及纠错是离散事件系统研究热点之一。本文主要研究在控制器实施控制的情况下,如何对离散事件系统的故障实行纠错,使系统运行在可接受状态范围内的相关问题。本文通过
语言在人们的日常生活中扮演着重要的角色,是执行任务、完成工作的手段。语言有口语、书面语之分。在任何语言处理任务中,语料库语言学的研究都很有意义。一般来说,语料是组织好
随着社会智能化的提高和安全意识的加强,人脸检测与识别技术在近几年得到了高度的重视。这一课题是当前图像处理与分析的研究热点问题之一,在身份鉴别、安全部门等领域具有广
工作流管理是信息时代的研究热点之一,己被广泛应用于多个领域;而工作流模型是整个工作流技术的重要内容。因此,本课题对工作流模型进行重点的研究与探讨。首先,对工作流、工
连续对象是指目标对象本身的体积和形态无法忽略,不能当做质点的一类对象,是目标监测中的一个重要应用领域。连续对象常伴随人类的生产生活,如水、气、雾等,而本文主要研究对