中文版面中标点符号的提取与识别

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:rayasoft
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
版面分析技术是OCR系统的重要组成部分,对OCR系统中字符识别的速度和正确率都有着很大的影响。标点符号是文档图像中重要的组成部分,它决定着文字块中句子的结构和区域,提取和识别出标点符号有利于版面中文字块的进一步分割和理解。而长期以来,研究者们在对版面分析的研究中都比较重视文字的分割,而忽视对文档中标点符号的分割和识别,所以对文档中的标点符号进行提取和识别有着很重要的意义。 本文主要研究中文文档中标点符号的提取和识别问题。主要工作包含以下内容: (1) 研究了版面分析预处理的过程。本文首先在比较各种已有方法的基础上,采用Hough变换的方法对图像进行倾斜校正,然后用中值滤波方法对校正后的图像进行去噪,最后采用基于矩的阈值选取方法进行二值化处理,实验结果表明可以得到较好的预处理结果图,方便了进一步的分割。 (2) 在版面分析过程中,首先研究比较了传统的投影法和连通域方法,然后在此基础上,采用一种基于膨胀算法的连通域搜索法对文档图像进行了分割。该方法根据数学形态学的原理对文档图像进行膨胀处理,并在此基础上进行连通域搜索,获得更加有效的分割效果。 (3) 在预处理和版面分析步骤获得的结果图像基础上,采用了以相似度为决策函数的模板匹配方法以及基于支持向量机的方法的对标点符号分别进行识别。实验表明两种方法都可以有效的识别出文字块图像中的标点符号。
其他文献
本文对网络化数据采集器进行了研究,包括数据采集和智能网关两个方面的内容。该网络化数据采集器是基于Cortex-M3内核进行开发的,嵌入了实时多任务操作系统μC/OSII和图形支持
现场总线目前已成为自动化领域的研究热点,现场总线的节点是具有数字通信能力的智能仪表。现场总线的目标就是通过开放的系统协议,从现场获取尽可能多的信息,进一步实现工厂
随着移动通信网络规模的不断扩大和各种网络设备的不断增加,各个移动运营商都陆续引进和自主开发了众多的网管系统,不可避免的带来了这些异构系统之间互操作和资源共享的问题,而
在船舶集控室或者驾驶台通过自动控制设备操作主机的系统称为主机遥控系统。主机调速系统是主机遥控系统的一个重要组成部分。有关调速器的发明也越来越多,至今,调速器已经经历
组织际关系的协调机制涉及如何管理跨越组织边界的活动的相互依赖性。由于组织际的活动主要处理的是组织际的物流、资金流和信息流。电子商务系统必须能同时实时、准确、可靠
该文以中国平流层通信平台的预研项目为背景,对项目第一阶段的验证飞艇,即空中无人飞艇的建模和控制问题展开了研究.作为研究控制问题的基础,飞艇数学模型的建立是必要和关键
轮廓误差是衡量多轴进给系统高速高精度加工性能的重要指标,轮廓运动控制也因此成为高速高精度加工中的重要研究课题。近年来如何在面向高速大曲率的连续轨迹加工中保持微小的轮廓误差是当前多轴机械加工行业中亟待解决的难题。本文对轮廓误差估计方法和轮廓误差控制策略两个角度的关键技术进行了研究。对期望轮廓局部几何特性的分析,传统的切线逼近是对期望轮廓的一阶逼近,对于线性或低速小曲率轮廓能够取得较好的轮廓误差估计精
全球定位系统(GPS)是如今被广泛使用的户外移动机器人定位方法。然而,由于卫星信号容易受天气、建筑物遮挡等外界环境的影响,有时不能提供理想的定位效果。利用激光扫描仪、
在现代雷达、制导与引信、高能物理、声纳处理等科研领域,目标试验数据不仅是检验算法有效性的重要依据,而且也是算法修正的依据;综合测试系统是获取和保存目标试验数据的主要设
近年来,随着电力电子技术和微电子技术的迅猛发展以及现代控制理论和计算机控制技术的应用,交流调速领域发展非常迅速,不断取得许多新的成果。在交流传动矢量控制技术普遍应用的