印刷体中文文档识别系统的研究

被引量 : 0次 | 上传用户:sishenshini
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化时代的到来,相互交流的信息内容越来越丰富,一个中文信息文档中不仅会含有中文,英文还有各种各样的公式以及表格和图形图像等内容。因此,快速而准确的将信息中各种内容输入到计算机是信息处理的一个关键问题。中文文档识别系统就是为了实现信息的识别输入以及转换信息文档格式而设计出的产物。而目前的识别系统并不能实现公式的识别输入,设计一种含有公式识别功能的中文文档识别系统,对信息文档的处理有着重要的实用价值和理论意义。本课题在研究现有字符识别的理论基础上,研究并设计了一套可以完成公式字符识别的印刷体中文文档识别系统。该系统主要包含版面分析,汉字和公式识别功能。主要的工作如下:首先,在得到原始文档图像的预处理结果后,利用基于多级别可信度大小和投影特征的版面分析算法,将整个文档图像进行版面分析。最终提取出文档图像中的文本部分进行多字符识别,即汉字识别与公式识别。再次,采用两次定位公式的方法将汉字识别作为公式字符最终定位的依据,并利用连通域分割法将定位出的公式进行进一步的分割,提取出构成公式的单个字符。利用孔洞数、网格特征以及穿线特征,采用567个字符样本建立字符特征库,并利用多级分类的思想对单个公式字符进行识别及属性判别。根据单个字符的识别结果,改进了基于特征字符的结构分析算法,扩充并重新设计了7种结构分析子算法,并利用10种Word EQ域,对分析结果输出其唯一的一维语法规则串。最后,将各种算法集成起来并设计出一个完整的中文文档识别软件MYOCR,并通过具体实例验证了算法的有效性和软件的优越性,而且也得到了较为满意的识别率,为以后的进一步研究奠定了坚实的基础。
其他文献
<正> 研究博物馆观众市场的课题很多,本文仅对博物馆观众市场的认识、规律和对策作一些肤浅的论述。一、观众市场的再认识博物馆观众市场是一个特殊的市场,它的特殊性就在于
目的研究炙甘草汤对转化生长因子(TGF-β1)与G-CSF分泌的影响。方法选取炙甘草汤与右归饮2个方剂,脐静脉内皮细胞设空白对照组、炙甘草汤组、右归饮组及混合组,每组分别加入相
松江盆地为一中生代山间沉积盆地,盆地内大砬子组上段普遍发育浊流沉积。通过对浊积岩体的沉积环境特征、岩性特征、沉积构造特征、粒度结构特征及层序特征等进行的研究表明:
晚古生代一三叠纪是秦岭造山带主造山作用的碰撞造山期,其中石炭二叠纪是点接触至面接触碰撞的阶段。华北石炭二叠纪发育有4次较大规模的海侵,时代分别为C12-C21-1,C21-2-C22
模具是生产各种工业产品的重要工艺装备。汽车工业是模具应用最多的工业,模具品种多、精度高、形状复杂、交货期短。汽车部件塑料化是当今国际汽车制造业的一大发展趋势。以
目的:观察健脾固冲汤治疗更年期无排卵型功血的疗效,并探讨其作用机理。方法:将75例更年期功血患者随机分为观察组(38例,口服健脾固冲汤)及对照组(37例,口服妇康片),观察止血疗效
社会文明的发展和民主意识的觉醒,催生近代公共博物馆的建立并向公众开放,博物馆教育职能由此诞生。近代博物馆教育是以科学实验的探究方式进行的,在收集大量实证的基础上进
张福山卡岩型磁铁矿矿床的形成与分布受岩浆侵入活动、断裂构造、大冶群含硬石膏—石膏碳酸盐岩以及蒲圻群泥质岩等地质因素控制。成矿元素主要未自接触带附近的蒲圻群和钠长
岭南地区南越国墓的文化因素构成情况大体有三:一种是相当典型的越式墓,墓主当为比较纯粹的土著越人;一种情况是越式特征已经减退而汉式因素亦不明显,墓主当为受到汉文化一定
“西学东渐”在中国近代经历了一个由表及里,由浅入深的艰难探索和吸收过程,博物馆作为一个保存文明、开启民智的西方近代化产物也随之舶来。晚清域外游记中有大量生动详实的