基于FP-树的关联规则挖掘算法的设计与实现

来源 :山东大学 | 被引量 : 0次 | 上传用户:sticker2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是解决数据丰富而知识贫乏的有效途径,当属信息科学领域的前沿研究课题之一,有关的研究和应用极大提高了决策支持的能力,它已被公认为是数据库研究中一个极富应用前景的领域。本文描述了数据挖掘的概念、功能以及发现模式的分类。在众多的数据挖掘算法中,挖掘关联规则是数据挖掘领域中的重要研究内容,其中挖掘频繁项目集是挖掘关联规则中的关键问题之一,又最大频繁项目集已经隐含了所有的频繁项目集,所以可以将发现频繁项目集的问题转化为发现最大频繁项目集的问题,因而发现最大频繁项目集对数据挖掘具有重大意义。 以前的许多挖掘最大频繁项目集算法是先生成候选集,再进行检验,然而候选项目集产生的代价是很高的,尤其是存在大量长模式的时候。本文主要在以下几个方面对基于FP-树的关联规则挖掘问题进行研究:第一是研究了FP-树的定义和构造过程以及多种改进算法,并分析了基于FP-树进行挖掘的可行性和完整性,然后提出了基于FP-树的快速挖掘最大频繁项目集的算法Max-FI(Maximal Frequent Itemset),该算法不需要生成最大频繁候选项目集。改进的FP-树是单向的,每个节点只保留指向父节点的指针,这大约节省了三分之一的树空间。试验结果表明该算法比同样基于FP-树的DMFIA算法挖掘最大频繁项目集的效率更高。 第二是研究了挖掘有效且无冗余关联规则的问题。传统算法在生成关联规则时,或者生成规则的效率很低,或者生成的关联规则之间存在着大量的冗余,或者挖掘出的规则的支持度和可信度都很高,但却是无趣的、甚至是虚假的规则,且不能产生带有否定项的规则。本文提出了一种新的算法MVNR(Mining Valid and non-Redundant Association Rules Algorithm),在该算法中,首先对频繁项集集合进行检查,删除了那些只能生成冗余关联规则的频繁项集,然后对分析过的频繁项集集合中的每一个频繁项集生成他们的极小子集集合,
其他文献
生物识别技术是二十世纪最为热点的技术,人脸自动识别技术是生物特征识别技术的重要组成部分,在近三十年里得到了广泛的关注和研究,已经成为计算机视觉、模式识别领域的研究热点
随着Internet技术的迅速发展,网络入侵问题也越发严重,入侵检测己成为网络防护安全体系中的重要组成部分。入侵检测系统通过从计算机网络或计算机系统中的若干关键点收集信息并
随着电信行业的不断发展,对电信网络管理的要求也越来越高,现阶段的电信设备一般为多个厂商提供,这些不同厂商的设备在一起工作,难免会造成接口不一致,信息难以互通的局面。
神经网络方法由于具有自学习、自组织和泛化能力,在模式分类领域得到了广泛的应用。神经网络的泛化能力是指:用一组训练样本对神经网络进行训练后,网络对训练阶段未曾见过的
随着各种新兴业务以及迎合其需求的专有网络(VPN)的不断发展,IP网络正逐渐演变成为音频、视频和数据通信合一的传输媒介,从仅提供尽力(best-effort)服务向一个综合的或者拥有
对讲机是重要的无线通信设备,无需第三方基站支持,在没有网络信号覆盖的地方依然能够正常使用,具有其他通信设备无法替代的优势。在现今通信设备全面数字化的背景下,国家也对
LTE(Long Term Evolution,长期演进)技术是新一代的无线通信技术,它可以更好的支持移动环境下的无线视频传输。基于项目实际需求,本文借助于LTE技术实现了一套对底层透明的、
随着移动设备、无线传感网络技术、RFID设备以及GPS卫星定位技术的快速发展以及大规模应用,很方便收集到海量移动对象轨迹数据。这些轨迹数据包含很多潜在的有意义的知识,如何
粗糙集理论是由波兰科学家Z.Pawlak在1982年提出的一种新型的处理模糊和不确定知识的数学工具。目前已经在人工智能、知识与数据发现、模式识别与分类、故障检测等方面得到了
入侵检测技术的进一步发展,给网络安全的研究带来了新的途径,入侵检测系统已成为必不可少的重要手段。为了提高入侵检测系统的检测能力,本文提出了一个ID模型。在模型中引入