基于频繁模式树的最大频繁项集挖掘算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:tcskater
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一门新兴的交叉学科,涉及到数据库技术、机器学习、统计学、模式识别、神经网络、人工智能、数据可视化等多个领域。目前它已成为数据处理和分析研究中最活跃、最令人兴奋的领域之一。   关联规则是数据挖掘研究中一个重要的研究课题,其主要的研究目的是从大型数据库中发现属性间存在的隐藏的、有趣的关系。频繁项集挖掘是关联规则挖掘的第一步,也是影响总体性能最关键的一步。频繁模式树(Frequent Pattern tree,FP-tree)是一种高效的频繁项集挖掘数据结构,对于最大频繁项集(MaximalFrequent Itemset,MFI)的挖掘的也是近年来的研究热点。因此,本文针对基于FP-tree的最大频繁项集的挖掘算法展开了研究,主要包括以下几部分工作:   首先,本文叙述了相关工作的背景知识。分析了当前数据挖掘和关联规则挖掘的研究现状、相关的概念与现有的技术,并且在分析了最大频繁项集挖掘算法的研究现状以后,详细阐述了经典的最大频繁项集挖掘算法FP-Max及其改进快速算法FP-Max*的思想,指出了他们的优点与不足。   其次,本文提出了扩展FP-tree的概念,紧接着提出了基于扩展FP-tree的最大频繁项集挖掘算法FP-MFI*。该算法利用最长路径的特性,使得算法不需要对含有最长路径的项建立条件FP-tree,加上快速的FP-tree构造算法的应用,从而达到降低算法时间复杂度的目的。作者在不同疏密程度的公共数据集上运用FP-MFI*进行最大频繁项集的挖掘,实验结果表明该算法在稠密型数据集上挖掘最大频繁项集比FP-Max*更有效。   另外,针对上面算法都需要在对头表中的项逐项处理过程中必须生成条件FP-tree的问题,应用了排序FP-tree这一数据结构,并且利用排序FP-tree的性质,提出了SFP-MFI*算法。这个算法省去了在挖掘FP-tree时构造条件FP-tree这个繁琐的过程,使得算法的时间复杂度大大降低。实验结果表明该算法在稠密型和稀疏型数据集上的效率都高于FP-Max*。   最后,本文对研究工作进行了总结,提出了今后进一步的研究方向。
其他文献
蚁群算法是一种新兴的仿生群体智能算法,它通过模拟自然界中蚂蚁的群体行为,利用信息素的累积、挥发和更新使全局收敛于最优路径,具有很强的鲁棒性和全局寻优能力。伴随着当前数
利用图像处理技术实现牛肉的自动分级是数字农业领域研究的热点问题,其关键技术之一就是需要精确识别肌肉与脂肪。选择不同的图像分割技术,将影响自动分级的客观性和准确性。本
随着通信技术和计算机网络的发展,数字作品,如图像,视频,音频作品等很容易得到,同时,由此引发的防止盗版和保护版权的问题已经引起人们的关注,数字水印技术是解决这些问题的有效技术
量子计算在理论上展示出较经典计算指数加速的计算能力,而玻色采样过程已成为有望在实践上首先验证此能力的研究对象。量子算法较经典算法达到了指数级别的加速,典型的例子就
自从可扩展标记语言(XML)出现以来,它在制定标准及开源社区方面做了很多有意义的工作,以融合网络中各种不同的应用技术,使得开发网络应用变得更加快捷。 融合不同应用技术的方
随着计算机网络技术的不断发展,计算机网络在人们的日常生活中已经变得越来越普遍,而对网络的维护和管理也日益凸显其重要性。目前,网络管理已成为计算机网络的关键技术之一,
粗糙集理论是八十年代初由波兰学者Pawlak提出的一种处理不精确、不确定性问题的数学工县。由于其近年来在机器学习、模式识别、决策分析、过程控制、数据库知识发现、专家系
智能规划是近几年人工智能领域中的一个研究热点,由于在工业实践以及理论研究有着非常重要的地位,智能规划受到越来越多的学者关注。本文的研究是针对智能规划中一种不确定性规
差分方程是描述自然科学和社会科学中各种演化系统的一种强有力的数学工具,已被广泛应用于生物学、生态学、电子学、生理学、物理学、工程学和经济学等领域。另外,差分方程在算
随着计算机网络技术、计算机通信技术、分布式并行处理技术的发展,Agent以及多Agent系统(Multi Agent System,MAS)的研究已成为分布式人工智能(Distributed Artificial Intel