论文部分内容阅读
支持向量机(SVM)是在统计学习理论的基础上发展起来的,它在很大程度上解决了以往的机器学习模型的选择与过学习、非线性、维数灾难、局部极小点等问题,在20世纪90年代以来受到很大重视,目前已经广泛用于解决模式分类和回归问题,是当前机器学习的研究热点。SVM方法的计算复杂度是由训练样本的数目决定的,在大训练样本情况下,SVM的计算量是比较大的。这使得SVM便面临着维数灾难,甚至会由于内存的限制导致无法训练,从而无法应用SVM进行模式分类和回归,所以如何训练大样本集下的SVM便成为SVM实际应用的瓶颈问题。本文主要对支持向量机大规模数据集训练算法进行研究。针对SVM在大样本集训练时存在的问题,本文研究支持向量机训练中样本集分布的几何特征,在不影响分类性能的前提下,提出一种适合大样本集训练的Quasi Choosing(QC)算法。该算法能剔除大部分与训练结果无关的样本,降低了训练复杂性,实验表明在不降低泛化精度的前提下,能有效加快训练速度。在Quasi Choosing算法的基础上进一步提出了一种增量学习算法——QC-ISVM算法。该算法能充分利用历史训练信息来提高训练精度,同时能对增量样本集进行精简。实验表明,QC-ISVM算法训练精度接近于用全部训练集进行训练的精度,当增量样本数比较多时,能够显著降低训练时间。在一些应用领域,如web文本分类、金融时间序列分析等,数据集常是海量的,并且每天都有大量的数据增加进来,本文提出的算法为SVM在这些领域的应用提供了一个有效途径。