论文部分内容阅读
支持向量机(Support Vector Machine,SVM)是一种建立在统计学习理论基础上的机器学习方法,最初是由Vapnik等人研究小样本问题时提出的。随着统计学习理论的发展,SVM在理论和应用方面都得到了迅速地发展。特别是将核函数引入到SVM的学习过程中,提高了算法对高维数据的处理能力,在文本分类、医疗诊断、图像检测及数字验证等领域得到很好的推广。标准SVM是基于监督学习的分类方法,需要手工对大量样本标记以获取足够的训练样本。但在实际工程应用中,这一过程不仅效率不高,并且代价较为昂贵。因此,半监督学习思想被引入到SVM的训练学习过程中,典型的包括:Bennett等人将SVM规范化的表现形式中引入聚类假设的思想,提出的S3VM学习机;Joachims基于直推式学习提出的TSVM算法等。本文对TSVM算法做了详细的研究,对于TSVM算法中N p较难估计的问题,提出基于无标签样本的成对标注法和标签动态调整PTSVM算法。针对训练样本集中的有标签样本数不平衡的问题,采取对不同的无标签样本设置不同的惩罚参数的策略,提出了TSVM的模糊渐进式算法和Semi-TSVM算法等。虽然以上几种改进算法提高了TSVM分类的准确度,但是也增加了算法的训练时间。针对这一情形,本文采用SLS-TSVM模型避免了每次迭代求解QP问题,提高了训练的速度,同时在每次迭代中采用区域标注法来实现无标签样本的标注,也加快了对无标签样本的标注效率。通过仿真实验可以发现,SLS-TSVM算法在保持PTSVM算法精度的同时,也有效提高了训练的效率。直推式学习SVM的研究是支持向量机发展的一个方向,虽然目前TSVM算法的研究已获得一些进展,但其理论研究仍不够完善。本文根据直推式支持向量机的学习算法做了一些理论研究,如何更好挖掘的无标签样本信息提高分类器的性能是TSVM算法下一步研究的关键。