基于频繁模式树的关联规则算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户：xiaobailove2009

【摘要】

：

数据挖掘是近年来迅速发展的信息处理技术,从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

【作者】

：

王洪立

【机构】

：

哈尔滨工程大学

【出处】

：

哈尔滨工程大学

【发表日期】

：

2008年期

【关键词】

：

数据挖掘关联规则频繁模式树频繁模式增长

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是近年来迅速发展的信息处理技术,从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它涉及数据库、人工智能、机器学习、模式识别、知识工程、面向对象、信息检索和可视化等一系列技术。关联规则挖掘作为数据挖掘领域的一个重要研究分支,它的任务是发现所有满足支持度阈值和置信度阈值的强关联规则。关联规则挖掘算法是关联规则挖掘研究的主要内容,迄今为止已经提出了许多高效的关联规则挖掘算法。本文对经典的Apriori和AprioriTid算法以及不产生候选集的FP-Growth算法进行了分析和研究。FP-Growth算法比Apriori算法在性能上有了很大提高,它仅需要扫描数据库两次,并且避免了产生大量的候选项集。但FP-Growth算法主要的瓶颈之一就是空间开销大。为了节省空间,提高频繁项的发现效率,本文对传统的频繁模式树和项头表进行了优化,采用动态构造哈希链地址的方法来构造项头表,FP-Tree的每个结点只存储该项在项头表中的地址,避免了在地址上出现空指针,节省了存储空间的开销,同时增加树结点的域实现了方便的双向遍历。此外还通过对事务数据库按一定的规则进行了划分,得到若干个数据库子集,然后分别对每个数据库子集进行数据挖掘,因而占用内存小,解决了内存无法装入频繁模式树的问题,使数据挖掘得以顺利进行。最后通过实验对基于频繁模式树的关联规则挖掘的优化算法与传统的频繁模式树的FP-Growth算法进行了比较,实验结果表明在挖掘大量数据信息时更有效。

其他文献

基于流体力学的图像修复

图像修复就是一个在静态图像或视频图像中的指定区域,填入丢失信息的过程。它使修复后的图像区域能从视觉上融入整幅图像中,让观察者无法察觉图像曾经缺损或己被修复。图像修

学位

流体力学图像修复图像处理偏微分方程数值迭代计算Navier-Stokes方程

基于共用本体与语义相似度的本体映射

当前语义Web中基于本体的应用越来越多,这意味着本体越来越受到重视。本体的长处在于能提供语义信息,正是这一能力使得万维网更具丰富的内容,以及提供更多的功能。在万维网最

学位

共用本体语义相似度本体映射相似度算法语义Web

分布式多代理环境下的语义逼近信息检索研究

随着Web上数据信息量的不断增长,基于关键词的传统信息查询方式越来越不能满足用户的需要。本文提出了一种基于语义逼近的信息查询方法和分布式下的多代理同步更新策略,并进

学位

语义Web语义逼近信息查询本体多代理系统

基于分层分域的补丁发布系统设计与实现

随着互联网技术的迅猛发展,网络安全问题已经成为信息时代人类面临的重大挑战。网络安全问题产生的根本原因之_是因为操作系统或者应用程序存在的漏洞。消除漏洞的根本方法就

学位

P2P技术Chord算法应用层组播补丁发布

基于混合过滤的推荐算法研究及其应用

学位

经典与随机离散事件系统的可纠错性研究

故障诊断及纠错是离散事件系统研究热点之一。本文主要研究在控制器实施控制的情况下,如何对离散事件系统的故障实行纠错,使系统运行在可接受状态范围内的相关问题。本文通过

学位

离散事件系统容错系统可纠错性

Urdu语言词性标注的统计学方法

语言在人们的日常生活中扮演着重要的角色，是执行任务、完成工作的手段。语言有口语、书面语之分。在任何语言处理任务中，语料库语言学的研究都很有意义。一般来说，语料是组织好

学位

Urdu语言词性标注统计学方法信息检索最大熵模型

人脸检测与识别的研究与实现

随着社会智能化的提高和安全意识的加强,人脸检测与识别技术在近几年得到了高度的重视。这一课题是当前图像处理与分析的研究热点问题之一,在身份鉴别、安全部门等领域具有广

学位

人脸识别人脸检测肤色模型眼睛定位FastICA

基于扩展Petri网的工作流模型技术的研究

工作流管理是信息时代的研究热点之一,己被广泛应用于多个领域;而工作流模型是整个工作流技术的重要内容。因此,本课题对工作流模型进行重点的研究与探讨。首先,对工作流、工

学位

工作流工作流模型Petri网工作流网合理性

基于无线传感器网络的连续对象边界监测的研究

连续对象是指目标对象本身的体积和形态无法忽略,不能当做质点的一类对象,是目标监测中的一个重要应用领域。连续对象常伴随人类的生产生活,如水、气、雾等,而本文主要研究对

学位

无线传感器网络连续对象最优融合集BP神经网络

基于频繁模式树的关联规则算法研究

其他学术论文