不确定数据频繁模式挖掘算法研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户：linxuekai

【摘要】

：

随着科学技术的飞速发展,传感器网络、无线射频识别、隐私保护等技术得到了广泛的研究与应用,随之而来也产生了大量的不确定数据。以前人们总是试图使用处理确定数据的方法来

【作者】

：

杨健

【机构】

：

江西理工大学

【出处】

：

江西理工大学

【发表日期】

：

2012年期

【关键词】

：

数据挖掘不确定数据期望支持度频繁模式结构化半结构化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着科学技术的飞速发展,传感器网络、无线射频识别、隐私保护等技术得到了广泛的研究与应用,随之而来也产生了大量的不确定数据。以前人们总是试图使用处理确定数据的方法来处理不确定数据,但是往往得不到正确的结果,因此探索适合于处理不确定数据的挖掘算法显得尤为迫切。本文首先概述了不确定数据产生的原因及其表现形式,并且简要介绍了不确定性方法,在此基础之上提出了不确定数据的模型,总结了几种常用的不确定性算法。由于不确定数据比确定数据要复杂得多,在处理方法上有其特殊性,目前的一些算法,在使用范围和效率上都存在着很大的局限性。本文按照数据的结构化类型分类,将数据分为结构化数据、半结构化数据和非结构化数据,在处理这三类不同的结构类型数据上有着各自不同的方法,并选取了结构化数据和半结构化数据作为本文的研究重点展开研究。本文的主要研究内容如下：(1)关系型数据是一种典型的结构化数据。在我们的工作和生活中应用非常普遍。这种数据表现直观,相对于其他类型的数据,处理起来较为简单。现实世界中普遍存在着不确定关系型数据,而传统的挖掘算法无法适用于此类数据的问题,并且用户希望高效地挖掘出符合要求的信息,目前已有基于约束的不确定数据频繁项挖掘的经典算法-U-FPS算法,但U-FPS算法需要构建频繁模式树,当数据量较大时,会占用大量内存,并且需要大量使用递归调用导致挖掘效率降低。针对该算法的不足,提出了适用于基于约束的不确定数据的新算法—UC-Eclat挖掘算法,该算法不需要构建频繁模式树,而采用了数据库垂直模式求交集的方式来计算支持度的方法,提高了挖掘效率。并通过实验证明了UC-Eclat算法在效率上更优。(2)图型数据是一种半结构化数据。由于图更加适合于用来描绘复杂的数据以及数据之间的关系,所以,越来越多的科技领域试图用图结构来描绘结构复杂的数据对象。目前已有经典频繁子图挖掘算法—DFS算法,但该算法搜索空间过大,从而导致算法执行效率过低。本文针对该算法的不足,提出了子图模式搜索空间裁剪策略,有效地缩减了算法的搜索空间,接下来又提出了一种数据库划分的思想,在此基础上产生了EDFS算法,该算法进一步对搜索空间进行裁剪,相对于最初的深度优先搜索算法,在效率上有了大幅度的提高。最后通过实验证明改进后的算法更优。

其他文献

基于复杂网络和演化博弈理论的社会一经济系统建模研究

社会-经济系统结构和动力学分析和建模是复杂系统研究的重要课题。近年来复杂网络研究兴起，自然界和人类社会中结构不规则、复杂的、时间上动态演化的网络成为关注热点.大量分

学位

复杂系统社会网络群体动力学规则格网社区结构层次网络再分配行为博弈论

基于高维混沌映射的图像加密技术

随着21世纪以来互联网的普及以及计算机运算和处理性能的大幅度提高，全球进入信息化时代，信息也成为了当今社会最重要的商品。在信息获取越发迅速的同时，信息的安全保密问题也越

学位

图像加密高维混沌映射混淆扩散分块猫映射

社交网络中的多媒体数据挖掘

种类繁多的社交网络(Social Network Sites)成为近些年来热度最高的网络应用,而其中大量的多媒体信息引起了研究人员的兴趣。针对社交网络中多媒体数据的研究主要关注于两点:

学位

社交网络数据挖掘人脸识别局部敏感哈希数据融合

基于自主IP的SpaceWire网络测试系统开发

星载数据传输网络用于星上各种设备之间的通讯和数据交换,是整个星载电子系统的关键部件之一。星载数据传输网络的可靠性、速度和灵活性直接影响着现代星载电子系统的性能。S

学位

SpaceWire自主IPPCIFPGA网络测试系统

基于视频的几种人体行为识别技术研究

人体行为识别是计算机视觉领域的重要课题之一,近年来也是备受研究者关注的一个研究方向,可以广泛应用于智能视频监控、智能机器人、运动分析等领域中。然而由于人体运动是非

学位

行为识别视频傅里叶描述子Hu特征矩目标检测

聚类融合研究及其应用

随着社会信息化的发展,人类现在以及未来都面临着信息爆炸的问题,对于数据的分析和处理正变得日益困难。在此背景下,聚类分析技术应运而起,并得到了蓬勃发展,很多聚类算法被

学位

聚类融合ANNCE核心群RCBK-meansRCC-CBEC

基于知识的应用生命周期管理研究

随着社会经济的不断发展，软件企业为了在激烈的市场竞争下取得优势，必须不断改进自身的流程管理。因而，软件生命周期的管理也逐渐成为软件业关注的热点问题。同时，知识的重要性也

学位

知识管理软件应用生命周期管理知识库数据交换Web技术

基于MPI的三维枝晶生长相场模型模拟研究

随着信息技术的快速发展和计算材料科学的进步,数值模拟技术实现了二元合金晶体生长微观结构的研究。相场法作为目前最有效的微观组织数值模拟方法之一,采用相场法模拟二元合

学位

相场法枝晶生长数值模拟MPIMPI+Open MP

具有心电异常检测功能的嵌入式健康管理系统的设计与实现

伴随着当今社会人口结构老龄化的发展、空巢老人无人关照缺少及时医疗救助导致的悲剧事件日益增多，触及到了远程医疗资源匮乏这个社会的痛点，也同时激发了人们对远程医疗行业尽

学位

网络服务嵌入式中间件时间序列异常检测心电异常检测健康管理系统设计目标

决策树ID3算法的改进研究

数据挖掘在众多领域中都发挥着不可替代的作用,一直是各国学者研究的热点。分类是数据挖掘的一种重要的手段。I D 3算法是提出最早,最经典的一种决策树分类方法。I D3在选择

学位

数据挖掘分类算法ID3MPID3

不确定数据频繁模式挖掘算法研究

其他学术论文