论文部分内容阅读
随着信息技术的快速发展和计算机应用的迅速普及,信息产生和传播的速度迅速提高,数据规模的增长也达到了前所未有的速度。从海量数据中发现有用的信息已经成为当前机器学习的热门主题。由Cortes等人提出的基于统计学习理论的支持向量机(SVM)算法,具有良好的学习效果和泛化能力,但当训练数据集规模较大时,该算法在计算资源方面的要求急剧增长。为了将支持向量机算法扩展到大规模数据集,本文从以下几个方面对该问题进行了研究和分析。首先,基于局部学习的思想,本文提出结合KD树和分类算法SVM来建立局部分类器的分类算法KDTSVM。该算法利用KD树结构特征将数据按空间划分成多个局部子空间,然后针对各个局部子空间,利用SVM分类算法构建多个局部分类器。其次,本文对于任意一个测试样本,先将其经过KD树,直到该测试样本到达一个叶子结点。如果该叶子结点的样本的类标都相同,就将该测试样本划分为跟这些样本同一类;否则就利用该叶子结点上的局部SVM分类器将该测试样本分类。最后,本文通过在11组数据集上进行实验,并将KDTSVM算法的实验结果与DTSVM,LIBSVM,CVM三种算法进行比较,说明本文提出的KDTSVM算法具有与其他三种算法相当的测试精度以及较快的训练速度和测试速度。