支持向量机训练算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:upup2004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(SVM)是在统计学习理论的基础上发展起来的,它在很大程度上解决了以往的机器学习模型的选择与过学习、非线性、维数灾难、局部极小点等问题,在20世纪90年代以来受到很大重视,目前已经广泛用于解决模式分类和回归问题,是当前机器学习的研究热点。SVM方法的计算复杂度是由训练样本的数目决定的,在大训练样本情况下,SVM的计算量是比较大的。这使得SVM便面临着维数灾难,甚至会由于内存的限制导致无法训练,从而无法应用SVM进行模式分类和回归,所以如何训练大样本集下的SVM便成为SVM实际应用的瓶颈问题。本文主要对支持向量机大规模数据集训练算法进行研究。针对SVM在大样本集训练时存在的问题,本文研究支持向量机训练中样本集分布的几何特征,在不影响分类性能的前提下,提出一种适合大样本集训练的Quasi Choosing(QC)算法。该算法能剔除大部分与训练结果无关的样本,降低了训练复杂性,实验表明在不降低泛化精度的前提下,能有效加快训练速度。在Quasi Choosing算法的基础上进一步提出了一种增量学习算法——QC-ISVM算法。该算法能充分利用历史训练信息来提高训练精度,同时能对增量样本集进行精简。实验表明,QC-ISVM算法训练精度接近于用全部训练集进行训练的精度,当增量样本数比较多时,能够显著降低训练时间。在一些应用领域,如web文本分类、金融时间序列分析等,数据集常是海量的,并且每天都有大量的数据增加进来,本文提出的算法为SVM在这些领域的应用提供了一个有效途径。
其他文献
随着Internet的迅速发展和普及,电子邮件以其方便、快捷、成本低等特点而成为人们生活中重要的通信手段之一。但随之而生的垃圾邮件,则占用了大量网络资源,浪费了网民的宝贵时间
随着大数据、物联网等技术的发展,大量的数据以“流”的形式快速产生,从而形成了数据流。数据流中常常隐含着概念漂移。在概念漂移刚刚发生时,仅能获取到少量属于新到概念的样本
曲线曲面造型是计算机辅助几何设计和计算机图形学的重要内容,其中曲线造型技术是曲面造型技术的基础。代数B-样条曲线是一种分段定义的隐式代数曲线,它具有次数低、分段光滑和
随着互联网的发展和普及,海量信息的处理和新的应用需求,对于串匹配这个计算机领域中一个基本的而又是重要的问题,提出了新的挑战。串匹配问题在Internet网络信息搜索、信息过滤
随着网络技术的发展,用户对于基于网络的实时、多媒体应用的兴趣和需求不断提高,如何发展、规划、改造现有的网络,以适应这样的变化,并满足用户多样的需求也成为研究领域和业界需
作为课题组结构光三维扫描原型系统的后续研究,本文致力于提升该系统在扫描精度、计算速度和存储空间占用等方面的性能,以更好地满足高精度、高效率、适合大规模文物数字化应用
在计算机图形学中,最引人注目的研究方向就是图形的真实感问题。所谓图形的真实感问题就是指所生成的图形反映客观世界的程度。纹理映射是高质量图像合成中最成功的技术之一,
近年来,基于XML的Web服务技术迅速发展,为互联网应用提供了一种共享数据的有效手段。它能够较好地解决异构应用之间、松散耦合环境下的互操作、集成和协作问题,成为国内外软件技
21世纪是城市的世纪,城市在经济社会发展中的地位和作用将更加突出。如何提高城市竞争力,加快城市的现代化发展,已成为广大学者普遍关注的问题。定量分析不同城市之间的竞争
“三网合一”——即将电视网、电话网和传统计算机网络合并为一个集成的网络已是大势所趋,密集波分复用(DWDM)技术的出现又为其提供了高速通信条件,但是现有的Internet的三层/两