论文部分内容阅读
随着网络技术的日益普及和飞速发展,许多像实时监控系统、通信网络和无线传感器网络等新的领域产生了海量的、实时连续的且动态变化的数据,这些数据在学术领域被称作数据流。对于这种数据,显然不能使用传统的挖掘方法进行分析和研究,需要针对数据流的挖掘研究新的方法。数据流分类是数据流挖掘领域一项非常重要的技术,首先需要对大量已标记数据样本进行学习,然后从中提取知识并用来对未知数据进行预测。由于这些数据样本中隐含的概念和知识有可能会随着时间和环境不断的发生变化,即存在着概念漂移,因此一个好的数据流分类算法不仅需要在有限的响应时间和内存下完成高精度的分类任务,并且要能有效地处理概念漂移。已研究的数据流分类算法大部分都是有监督学习,用来训练的数据都必须是带类标的,然而对数据进行标记需要花费大量的时间和财力物力,也许聚类算法不存在这样的苦恼,但是聚类分析没有关注到数据流中的少量有标记样本,从而降低了算法的准确度。针对上述问题,本文主要选取“含有限类标数据的数据流分类”这个视觉进行研究,提出了两种数据流分类算法SKAOGClass和SMEClass。算法SKAOGClass是一种增量式的分类算法,它选用一种特殊的K-关联图来表示数据样本间的拓扑结构和相似性,从而可以进行类别区分,算法以K-关联最优图作为基础模型,为K-关联最优图设计了半监督的构造方法,并用这种半监督K-关联最优图方法来构造基础分类器,从而避免了算法受参数设置的影响,当新的样本到来时,将其转换为顶点,并与构造好的主图进行预连接,再使用贝叶斯理论来估计未知数据的类标。算法SMEClass则是结合横向集成和纵向集成各自的优势,选用决策树分类器和贝叶斯分类器作为基分类器构造一种集成模型,在新数据块上先根据已有标记数据训练决策树分类器,再根据它和集成分类器中的K个分类器对未标记数据进行投票标记,最后根据新构建的分类器更新集成分类器,模型中的贝叶斯分类器是用来监督数据标记过程的,它可以过滤掉噪音数据。在人工合成数据集和真实数据集上的实验表明,SKAOGClass算法和SMEClass算法都具有很高的准确率和很强的可靠性,能够很好的适用于含有限类标数据的数据流分类。