论文部分内容阅读
文字是人类进行信息交流的重要工具之一,是信息进行传播、交换和记载的重要媒介。随着科学技术的飞速发展和计算机的普及,利用计算机对汉字进行处理和识别已成为一个很重要的研究领域。另外移动数码设备等智能终端的迅速普及也加快了联机手写汉字识别技术的发展步伐,使联机手写汉字识别技术成为了汉字识别领域的一个重要的研究课题。在联机手写汉字识别技术中,统计模式识别法由于对局部噪声和微小畸变不敏感,分类性能比较稳定,所以得到了广泛的应用。但是传统的统计模式识别方法是在样本数目足够多的前提条件下进行的,也就是只有在样本数量趋于无穷大时才能达到比较好的效果。在实际问题中,一般样本数量是有限的,这样传统的统计模式识别方法都很难取得比较理想的效果。由于统计学习理论是专门为小样本设计的,所以建立在统计学习理论基础上的支持向量机能够很好的解决有限样本情况下的统计模式识别问题。因此将支持向量机理论运用于联机手写汉字的识别有重要价值。论文详细探讨和研究了联机手写汉字识别中的输入、预处理、特征提取和分类,最终实现了基于支持向量机的联机手写体汉字识别系统。具体工作如下:(1)论文概述了联机汉字识别技术的发展和现状,分析了联机手写体汉字的基本过程,分别对手写输入、预处理、特征提取、分类器、后处理和结果输出进行了介绍。(2)分析了支持向量机的原理和优点,将支持向量机应用到联机手写汉字识别中。对支持向量机的多类分类算法进行了详细分析,并且在此基础上,对联机手写汉字识别的多类分类器进行了改进。(3)运用libsvm测试工具,通过matlab实验对支持向量机算法中的关键参数惩罚因子C进行了研究,并最终确定本文所采用的惩罚因子的最优值。获得算法的优化参数后,对改进的多类分类算法进行了测试,实验数据验证了改进的多类分类算法的有效性。(4)用C++语言实现了基于支持向量机的联机手写汉字识别系统。整个系统包括手写输入模块、预处理模块、特征提取模块、训练模块、分类决策模块和输出模块。该系统通过鼠标在写字区写字,能够实时的输出识别结果,对于手写楷书汉字识别率达到96.7%。