论文部分内容阅读
GBSSL是实现半监督学习的有效途径,其根据数据集构造图,图中节点对应数据集中的数据,边权对应数据间的相似度。采用某种算法将标记节点的标记信息沿着图向未标记节点扩展,以达到分类未标记节点的目的。在GBSSL中,有两类噪声的影响至关重要,且亟待克服。一是标记信息源头的标记节点中的噪声,此噪声经过标记扩展将会造将成算法的大量错分,从而性能大大下降。二是位于分类边界处的噪声,此类噪声很有可能将不属于同一类的节点连接在一起,从而在两类数据间建立连接,使得算法在做标记扩展时将标记信息传递到异类节点上,对算法分类结果产生影响。本文针对以上两类噪声对算法造成的影响做了详细的分析,并且提出了减小噪声影响的方法。针对第一类噪声,论文采用测地距离计算数据间相似度,以减弱噪声的影响。针对第二类噪声,论文首先在构造图时通过结合K近邻图与全连接图的方式减小这类噪声出现的概率,然后提出了一个利用多个不同的图结合以减弱边界噪声的影响的标记传播算法。具体做法是,在图中引入随机扰动,在标记的迭代扩展过程中更新图的权值,本质上相当于构造了结构相同但权值不同的图,通过这些图的组合达到减弱边界噪声影响的目的。我们在在人工数据集和UCI数据集上进行了实验研究,实验结果验证了论文提出算法的有效性,算法有效降低了GBSSL中两类噪声的影响。