含有限类标数据的数据流分类算法研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:fuyao698
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的日益普及和飞速发展,许多像实时监控系统、通信网络和无线传感器网络等新的领域产生了海量的、实时连续的且动态变化的数据,这些数据在学术领域被称作数据流。对于这种数据,显然不能使用传统的挖掘方法进行分析和研究,需要针对数据流的挖掘研究新的方法。数据流分类是数据流挖掘领域一项非常重要的技术,首先需要对大量已标记数据样本进行学习,然后从中提取知识并用来对未知数据进行预测。由于这些数据样本中隐含的概念和知识有可能会随着时间和环境不断的发生变化,即存在着概念漂移,因此一个好的数据流分类算法不仅需要在有限的响应时间和内存下完成高精度的分类任务,并且要能有效地处理概念漂移。已研究的数据流分类算法大部分都是有监督学习,用来训练的数据都必须是带类标的,然而对数据进行标记需要花费大量的时间和财力物力,也许聚类算法不存在这样的苦恼,但是聚类分析没有关注到数据流中的少量有标记样本,从而降低了算法的准确度。针对上述问题,本文主要选取“含有限类标数据的数据流分类”这个视觉进行研究,提出了两种数据流分类算法SKAOGClass和SMEClass。算法SKAOGClass是一种增量式的分类算法,它选用一种特殊的K-关联图来表示数据样本间的拓扑结构和相似性,从而可以进行类别区分,算法以K-关联最优图作为基础模型,为K-关联最优图设计了半监督的构造方法,并用这种半监督K-关联最优图方法来构造基础分类器,从而避免了算法受参数设置的影响,当新的样本到来时,将其转换为顶点,并与构造好的主图进行预连接,再使用贝叶斯理论来估计未知数据的类标。算法SMEClass则是结合横向集成和纵向集成各自的优势,选用决策树分类器和贝叶斯分类器作为基分类器构造一种集成模型,在新数据块上先根据已有标记数据训练决策树分类器,再根据它和集成分类器中的K个分类器对未标记数据进行投票标记,最后根据新构建的分类器更新集成分类器,模型中的贝叶斯分类器是用来监督数据标记过程的,它可以过滤掉噪音数据。在人工合成数据集和真实数据集上的实验表明,SKAOGClass算法和SMEClass算法都具有很高的准确率和很强的可靠性,能够很好的适用于含有限类标数据的数据流分类。
其他文献
伴随着云时代的来临,互联网进入了海量数据的时代,科技的发展使得互联网上的信息由最初的非格式化或半格式化发展到现在的基于本体的信息定义与表达,由最初的HTML语言发展到现在
目前在教育领域,如何高效准确地对受测者的知识掌握情况进行测试评估是一个研究的热点问题。现在的测试系统主要采取从题库中随机抽取试题的方式,虽然有些系统也考虑了受测者
本文基于空中交通管制的226研发项目,介绍了空中交通管制系统的项目背景,以及网络监控的相关技术的研究现状。结合空管系统网络监控的需求和实际的系统架构提出了基于分布式
CNC电火花成型磨削装置是利用工作液中的两极间脉冲放电来蚀除导电材料的特种加工装置。脉冲电源是磨削装置的一个重要组成部分,它的性能直接影响到装置的加工品质。本课题来
随着计算机技术、网络技术的发展、信息时代的到来,高性能的机器翻译的研究具有理论意义和极大的应用前景,已经成为当前国际上激烈竞争的研究领域之一。尤其是随着北京2008奥运
本论文涉及的课题是“有关反垃圾邮件技术的研究和原形实现”,提出并研究了有关基于内容过滤的技术以及反垃圾邮件网段过滤系统的体系结构。邮件过滤技术具有重要的应用价值
网络监控是Internet/Intranet上的一个重要课题,如何能够在保证各种监控功能的情况下,尽量提高系统的性能,一直是一个难点。本文设计和实现了一个高性能的网络数据包捕获与分析
数字水印是一种有效的数字产品版权保护和数据安全维护技术,如今已成为多媒体信息安全研究的一个热点。近年来,针对数字图像、音频和视频等传统媒体的数字水印技术取得了很大的
学位
学位
随着计算机软件模型日趋复杂以及大规模与并发系统的应用,如何保证系统模型的正确性、一致性成为当前研究的热点。本课题以面向任务的系统集成设计方法为研究背景,该方法的建模