【摘 要】
:
传统的机器学习技术依赖于大量有标记样本进行训练,但是在实际应用中大量的有标记样本获取困难,相比之下,无标记样本廉价、容易获取。因此,只需要少量的有标记样本和充分利用
论文部分内容阅读
传统的机器学习技术依赖于大量有标记样本进行训练,但是在实际应用中大量的有标记样本获取困难,相比之下,无标记样本廉价、容易获取。因此,只需要少量的有标记样本和充分利用大量无标记样本的半监督学习引起越来越多人关注。自训练方法作为半监督学习方法中的一种,由于其简单有效,不需要特定的假设条件,得到了广泛的应用。然而自训练方法也存在着许多问题,比如:如何解决自训练方法误标记无样本的问题;自训练方法中置信度低样本利用率不足的问题;如何选取初始化自训练分类器的有标记样本集的问题;如何选取无标记样本给自训练方法迭代的学习,从而更好的提高自训练方法的泛化性的问题。针对这些问题,本文对自训练方法进行了研究,完成的主要工作如下:提出了一种结合主动学习和置信度投票的集成自训练方法。该方法用置信度投票结合的策略解决集成自训练算法如投票策略容易误标记离决策边界近的样本的问题;置信度策略容易误标记异构集成分类器预测类别不一致的样本的问题;并且用主动学习策略解决了对于置信度低的样本,集成自训练分类器利用率不足的问题。在UCI数据集上的对比实验结果表明,该算法在性能上优于对比算法。提出了一种基于近邻密度和半监督KNN的集成自训练方法。该方法用近邻密度方法选取初始化的已标注样本,避免已标注样本周围k个近邻样本成为已标注候选集,这样使初始化的已标注样本间的距离尽量分散,具有更多信息量。为了提高数据剪辑的性能,用半监督KNN代替WKNN,弥补WKNN做数据剪辑的时候只考虑到了有标记样本对待测样本类别的影响,而没有利用待测样本周围的无标记样本的缺点,从而让数据剪辑技术更好的解决自训练方法误标记无标记的问题。最后,通过在UCI数据集上的对比实验来验证了该算法的有效性。提出一种结合半监督聚类和数据剪辑的自训练方法。该方法在自训练方法每次迭代的时候,利用少量的有标记样本和大量的无标记样本进行半监督聚类,从而选出聚类隶属度高的无标记样本给NB分类,用这种策略选出的无标记样本比随机选出的无标记样本更具有代表性。然后该算法利用半监督数据剪辑技术来过滤掉聚类隶属度高,但是NB误分类的无标记样本,解决了自训练方法误标记样本的问题。在UCI数据集上,证明了该算法的有效性。
其他文献
随着大数据时代的来临,互联网网络规模的日益扩大和承载业务种类的逐渐繁多,网络流量呈现惊人的快速增长。如何有效地对网络应用流量类型进行快速且准确的识别分类,成为一个
光纤陀螺惯性导航系统以高精度、低功耗、高可靠性的优势越来越多地被应用于空间卫星的姿态控制中,光纤陀螺应用在空间中其误差会受到辐射效应的影响,进而使光纤陀螺的性能发
近些年来,数字信息呈喷薄式地增长发展,逐渐被广泛地应用到科技发展的各个领域当中。数字彩色图像由于具有特殊的颜色、纹理和形状等特点,从而成为了多媒体数字信息中应用最
随着大数据与人工智能时代的到来,数据与智能在我们的生活与工作中扮演着举足轻重角色。数据挖掘作为大数据与人工智能应用最为广泛的一条技术分支,其中的数据挖掘算法的性能
大数据时代到来,数据规模的快速增长和应用的高时效处理需求对处理器结构和并行计算机系统结构提出了新的巨大挑战。图搜索问题是大数据研究的热点问题,被广泛应用于科学研究
重识别技术旨在从不同的拍摄场景中识别出相同的目标,是智慧城市以及智能视频监控研究领域的重要分支。视频监控中车辆重识别是重识别技术需要解决的问题之一,其中通过车辆的
语言是我们最重要的交流工具,而词语是语言的建筑材料、载体,词语教学又是组成小学语文教学的重要部分之一,所以我们要对词语教学重视起来。词语教学作为学生进行阅读、口语交际、写作等活动的基石,在小学语文当中所占的位置是非常重要的,对学生语文素养的提高以及听、说、读、写等各个方面能力的培养和发展都有着至关重要的影响,尤其是对于低年级的小学生来讲,建好这座基础的桥梁显得格外重要。然而当前的词语教学中还存在着
伴随生物信息科学在近些年来的飞速发展,生物特征识别技术迅速融入到当今人类社会活动的方方面面。当今常用的生物信息包括,掌纹、指纹、虹膜、人脸、步态等。其中,人脸信息
复杂场景下的音频序列切分是对音频做深度处理的基础和前提,对音频后续处理工作具有重要的影响。在许多实际应用的场景中,如语音识别系统、说话人识别系统和语音自动标注系统
目的:通过观察宝如剂对溃疡性结肠炎相关性结肠癌(UCACC)模型小鼠的预防作用,验证蒙药宝如剂对溃疡性结肠炎相关性结肠癌的防治作用,为蒙医药防治UCACC临床提供可参考的实验数据。方法:将144只SPF级BALB/c雄性小鼠随机分为空白对照组、宝如剂低剂量组、宝如剂中剂量组、宝如剂高剂量组、西药组(美沙拉嗪)、模型组6组。空白对照组除外,其余各组通过联合应用氧化偶氮甲烷(AOM)与三个循环的葡聚糖