论文部分内容阅读
脱机印刷体文字识别技术是模式识别研究领域的一个重要分支,是计算机智能接口的重要组成部分。经过多年的研究,文字识别技术已经取得了很大的发展,并在很多方面开始进入应用阶段,已有大量的商业产品面世。例如TH-OCR,汉王OCR,尚书OCR等等。然而,目前的商业产品中,大多数是PC机配合扫描仪使用的OCR软件,或者专用的扫描识别设备,例如名片读取器,汽车牌照识别装置;也有少数一些在PDA或者手机上的嵌入式应用,不过这些嵌入式应用还局限于联机识别。我们利用低成本硬件开发了一种电子阅读笔系统,本文针对该系统设计了一套专用的脱机印刷体OCR算法,以中英文多种字体的印刷体文字为识别对象,并已在电子阅读笔中得到了应用。 本文以脱机印刷体文字识别技术中的字符分割、文字识别和后处理方法为研究内容,对文字识别的研究意义、文字识别的研究现状、文字识别技术的新阶段和新进展作了全面的总结,旨在通过这些总结来说明本文对文字识别研究的深刻认识。系统阐述了文字识别的理论基础,从OCR系统构成,到相关图像处理基础知识。对现有的字符识别分类方法做了详细的研究,简要的讨论了预处理中的关键步骤——二值化,并对目前常用的文字识别的特征描述和特征提取方法进行了细致的研究、归类。从整体设计的角度介绍了电子阅读笔的设计框架,包括硬件系统和软件系统的设计方案。说明了电子阅读笔的工作原理和流程。详细的阐述了电子阅读笔硬件系统包含的各个子系统的设计原理和实现方案。 本文在研究和分析现有字符分割算法的基础上,提出了一种新的英文字符分割方法——基于词片识别的字符分割算法。该方法通过对字母组合的识别,降低了传统的基于孤立字符识别方法对于字符切分的要求,不需要用过于复杂的方法切分粘连字符,而耗用大量时间。该方法以对词片的识别做为前提,以中心生长法和改进的峰谷函数为切分工具,简单实用,在减少了粘连字符切分错误引起的识别错误的同时,降低了运算量,适合在阅读笔等嵌入式设备上应用。 本文选择具有互补性的两种局部特征作为粗、细分类的特征:具有高效粗分类性能利轮廓辨别能力的改进粗外围特征和对于文字内部结构信息敏感的平均线密度特征。并在粗外围特征提取时,进行二重分割,增加了特征的稳定性。结合本文提出的三级分类识别方法,用低维数的粗外围特征计算绝对值距离实现快速有效的粗分类;细分类则利用维数较高的线密度特征的欧氏距离度量准则,进一步缩小候选字符集;最终利用类似度准则对两种特征加权判别,得到识别结果。 本文中采用基于词典的拼写错误检查方法来检查出识别错误的单词,字符替换实验表明切实可行。计算编辑距离的错误改正方法,由于要和词典中每个单词匹配,而且又是递归运算,所以计算量非常大,电子阅读笔的运算能力无法实时实现,因此我们合理的加以改进和简化。通过统一的替换操作,实现了编辑操作中的替换、插入、删除和合并等四种操作。并且不用限定编辑操作的字符串集合,而是利用规则表进行变换,有效提高了后处理的速度,而且规则表可以增加和删减,又很好的适应性。