论文部分内容阅读
版面分析技术是OCR系统的重要组成部分,对OCR系统中字符识别的速度和正确率都有着很大的影响。标点符号是文档图像中重要的组成部分,它决定着文字块中句子的结构和区域,提取和识别出标点符号有利于版面中文字块的进一步分割和理解。而长期以来,研究者们在对版面分析的研究中都比较重视文字的分割,而忽视对文档中标点符号的分割和识别,所以对文档中的标点符号进行提取和识别有着很重要的意义。 本文主要研究中文文档中标点符号的提取和识别问题。主要工作包含以下内容: (1) 研究了版面分析预处理的过程。本文首先在比较各种已有方法的基础上,采用Hough变换的方法对图像进行倾斜校正,然后用中值滤波方法对校正后的图像进行去噪,最后采用基于矩的阈值选取方法进行二值化处理,实验结果表明可以得到较好的预处理结果图,方便了进一步的分割。 (2) 在版面分析过程中,首先研究比较了传统的投影法和连通域方法,然后在此基础上,采用一种基于膨胀算法的连通域搜索法对文档图像进行了分割。该方法根据数学形态学的原理对文档图像进行膨胀处理,并在此基础上进行连通域搜索,获得更加有效的分割效果。 (3) 在预处理和版面分析步骤获得的结果图像基础上,采用了以相似度为决策函数的模板匹配方法以及基于支持向量机的方法的对标点符号分别进行识别。实验表明两种方法都可以有效的识别出文字块图像中的标点符号。