分布式最大频繁模式挖掘算法的研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:lilanlan999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘是数据挖掘领域的一个重要研究方向,而频繁模式挖掘作为其中的一个关键技术和步骤,目前已经取得了较丰硕的成果。然而由于频繁模式挖掘的计算复杂度,因此业界提出了最大频繁模式挖掘问题。最大频繁模式不但隐含了所有的频繁模式,而且某些数据挖掘应用只需挖掘最大频繁模式。此外,随着网络技术和分布式数据库技术的迅速发展,使得分布式挖掘最大频繁模式的研究成为必然。另外,在实际挖掘应用中,由于事务数据库可能发生变化,并且用户可能不断调整最小支持度阈值来寻找更有价值的信息,因此如何对挖掘结果进行有效更新也是一个值得研究的问题。本文的研究工作主要体现在以下几个方面。首先,提出了用于挖掘分布式全局最大频繁模式的DMFP算法。该算法在各站点采用改进的频繁模式树(HSFP-tree)来压缩存储事务数据库,并在HSFP-tree上采用深度优先搜索策略来挖掘各局部最大频繁模式,并通过站点间的相互通信最终得到全局最大频繁模式。由于在挖掘过程中,不需产生条件模式树以及候选模式,从而减少了算法挖掘过程中的时间和空间开销。实验结果表明,该算法具有较好的性能。其次,提出了用于解决最小支持度阈值发生变化时的分布式全局最大频繁模式更新挖掘算法UDMFP。该算法在新的最小支持度阈值下,充分利用已挖掘的结果和频繁模式树,能够快速地进行全局最大频繁模式的更新挖掘。实验结果表明,该更新算法具有较好的执行效率。最后,提出了用于解决数据库记录发生变化时更新挖掘分布式全局最大频繁模式问题的CDMFP算法。该算法通过扫描新添加的数据记录得到新的局部最大频繁模式,并充分利用已建立的频繁模式树以及已挖掘的结果,可有效地降低网络通信量,从而提高更新效率。实验结果表明,该更新算法是行之有效的。
其他文献
随着互联网的高速发展,网络信息量大幅增长,面对海量数据信息用户无法快速有效地获得对自己有用的信息,即“信息过载”问题,搜索引擎和推荐系统是解决“信息过载”问题的重要
近年来,针对数据流的挖掘研究已成为数据挖掘领域中一个新的研究热点。和传统静态数据库中的数据不同的是,数据流具有连续的、无限性、和实时性的特点,使得传统的频繁模式挖
随着互联网的迅速普及,电子邮件在人们的生活中占据了越来越重要的地位。由于它使用方便、发送快捷、成本低廉等优点被人们使用,成为现代社会中非常重要和广受欢迎的通讯方式
视频水印是当今数字水印技术中的一个研究热点。在信息社会中,由于大量消费类数字视频产品的的增长,如VCD,DVD等网络多媒体数据,给人们前所未有的享受与便利的同时,数字产品
本文研究总结了目前图像垃圾邮件过滤技术和图像垃圾邮件分类的算法,并对各种垃圾邮件检测算法进行了性能分析。针对不同的图像垃圾邮件类型,本文提出了两种实现图像中文本区
自动文本分类技术的主要任务是将非结构化的文本数据划分到相应的分类体系中。文本分类有着广泛的应用,例如新闻门户网站中的新闻自动分类、个性化广告推荐、垃圾邮件过滤、
随着网络安全问题的日益严峻,网络入侵检测系统(NIDS)凭借其自身特点有效地弥补了传统安全保护措施的不足,已成为计算机和任何网络安全架构的重要组成部分,在网络安全防御策略中发
流程工业是国民经济发展的重要支柱。流程工业综合自动化系统(CIPS)是提高流程工业竞争力的重要技术,目前采用企业经营优化层(ERP)、生产执行系统(MES)、过程控制系统(PCS)的三
在建500米口径球面射电望远镜(Five-hundred-meter Aperture Spherical radio Telescope,简称FAST)依托我国贵州省喀斯特地形而建,是我国具有独立自主知识产权的国家“十二五
服装裁剪中的画印布局,造船业板材切割中的部件拼装和机械行业中的冲压落料等二维不规则图形布局问题都属于NP-难问题,存在求解困难。为此,许多学者进行了大量的研究。其中,