不确定数据频繁模式挖掘算法研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:linxuekai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的飞速发展,传感器网络、无线射频识别、隐私保护等技术得到了广泛的研究与应用,随之而来也产生了大量的不确定数据。以前人们总是试图使用处理确定数据的方法来处理不确定数据,但是往往得不到正确的结果,因此探索适合于处理不确定数据的挖掘算法显得尤为迫切。本文首先概述了不确定数据产生的原因及其表现形式,并且简要介绍了不确定性方法,在此基础之上提出了不确定数据的模型,总结了几种常用的不确定性算法。由于不确定数据比确定数据要复杂得多,在处理方法上有其特殊性,目前的一些算法,在使用范围和效率上都存在着很大的局限性。本文按照数据的结构化类型分类,将数据分为结构化数据、半结构化数据和非结构化数据,在处理这三类不同的结构类型数据上有着各自不同的方法,并选取了结构化数据和半结构化数据作为本文的研究重点展开研究。本文的主要研究内容如下:(1)关系型数据是一种典型的结构化数据。在我们的工作和生活中应用非常普遍。这种数据表现直观,相对于其他类型的数据,处理起来较为简单。现实世界中普遍存在着不确定关系型数据,而传统的挖掘算法无法适用于此类数据的问题,并且用户希望高效地挖掘出符合要求的信息,目前已有基于约束的不确定数据频繁项挖掘的经典算法-U-FPS算法,但U-FPS算法需要构建频繁模式树,当数据量较大时,会占用大量内存,并且需要大量使用递归调用导致挖掘效率降低。针对该算法的不足,提出了适用于基于约束的不确定数据的新算法—UC-Eclat挖掘算法,该算法不需要构建频繁模式树,而采用了数据库垂直模式求交集的方式来计算支持度的方法,提高了挖掘效率。并通过实验证明了UC-Eclat算法在效率上更优。(2)图型数据是一种半结构化数据。由于图更加适合于用来描绘复杂的数据以及数据之间的关系,所以,越来越多的科技领域试图用图结构来描绘结构复杂的数据对象。目前已有经典频繁子图挖掘算法—DFS算法,但该算法搜索空间过大,从而导致算法执行效率过低。本文针对该算法的不足,提出了子图模式搜索空间裁剪策略,有效地缩减了算法的搜索空间,接下来又提出了一种数据库划分的思想,在此基础上产生了EDFS算法,该算法进一步对搜索空间进行裁剪,相对于最初的深度优先搜索算法,在效率上有了大幅度的提高。最后通过实验证明改进后的算法更优。
其他文献
社会-经济系统结构和动力学分析和建模是复杂系统研究的重要课题。近年来复杂网络研究兴起,自然界和人类社会中结构不规则、复杂的、时间上动态演化的网络成为关注热点.大量分
随着21世纪以来互联网的普及以及计算机运算和处理性能的大幅度提高,全球进入信息化时代,信息也成为了当今社会最重要的商品。在信息获取越发迅速的同时,信息的安全保密问题也越
种类繁多的社交网络(Social Network Sites)成为近些年来热度最高的网络应用,而其中大量的多媒体信息引起了研究人员的兴趣。针对社交网络中多媒体数据的研究主要关注于两点:
星载数据传输网络用于星上各种设备之间的通讯和数据交换,是整个星载电子系统的关键部件之一。星载数据传输网络的可靠性、速度和灵活性直接影响着现代星载电子系统的性能。S
人体行为识别是计算机视觉领域的重要课题之一,近年来也是备受研究者关注的一个研究方向,可以广泛应用于智能视频监控、智能机器人、运动分析等领域中。然而由于人体运动是非
随着社会信息化的发展,人类现在以及未来都面临着信息爆炸的问题,对于数据的分析和处理正变得日益困难。在此背景下,聚类分析技术应运而起,并得到了蓬勃发展,很多聚类算法被
随着社会经济的不断发展,软件企业为了在激烈的市场竞争下取得优势,必须不断改进自身的流程管理。因而,软件生命周期的管理也逐渐成为软件业关注的热点问题。同时,知识的重要性也
随着信息技术的快速发展和计算材料科学的进步,数值模拟技术实现了二元合金晶体生长微观结构的研究。相场法作为目前最有效的微观组织数值模拟方法之一,采用相场法模拟二元合
伴随着当今社会人口结构老龄化的发展、空巢老人无人关照缺少及时医疗救助导致的悲剧事件日益增多,触及到了远程医疗资源匮乏这个社会的痛点,也同时激发了人们对远程医疗行业尽
数据挖掘在众多领域中都发挥着不可替代的作用,一直是各国学者研究的热点。分类是数据挖掘的一种重要的手段。I D 3算法是提出最早,最经典的一种决策树分类方法。I D3在选择