基于分割和编解码的OCR技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liuwu521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
光学字符识别(Optical Character Recognition,OCR)作为促进办公自动化的一项重要技术应用场景十分广泛,随着近年来支持OCR有监督学习的训练数据爆炸性增长,针对文本检测和识别的OCR技术研究逐渐成为深度学习领域一个前景十分广阔的热门研究方向。本文研究基于深度学习的OCR技术,研究重点是如何在保证OCR过程中文本检测和识别准确性的同时,尽可能地提升模型的推理速度,高效快速地完成场景文本的检测和识别。针对文本检测问题,本文模型使用一系列的卷积神经网络模块作为骨干网络从原始图像中提取出征图,然后在骨干网络中加入特征金字塔结构以进行多尺度预测,并且分别用两个分支做目标的分类和分割以获得最终的文本检测结果。在训练阶段,模型分类损失函数采用Focal Loss,分割采用二进制交叉熵(Binary Cross Entropy,BCE)损失函数,联合两部分损失值对整个文本检测模型进行监督。文本检测阶段仅需做二分类,即使使用单阶段目标检测也可以获得较好的检测结果,同时还能加速整个检测流程。针对文本识别问题,本文模型以一组卷积神经网络作为编码器提取图片特征,然后利用双向Transformer结构对提取的特征图进行解码。双向Transformer结构由多头注意力模块和前馈计算模块堆叠形成。这种结构能够更好地提取双向特征,同时支持并行化计算。模型将输出的概率分布与数据集标签一起输入到CTC损失函数中监督模型的训练过程,模型推理过程中则直接由概率分布解码得到最终预测的文本识别结果。本文使用标准数据集以有监督学习的方式分别训练了基于分割的文本检测模型和基于编解码的文本识别模型。模型均在相应的数据集上收敛到较好的效果。文本检测模型在评测数据集上的F1分数为85.79,FPS为9。该模型的检测准确性在保持与领域内相关工作相当的同时,FPS提升了3倍以上。文本识别模型在评测数据集上的准确率为85.6%;批推理时间为12.82ms,仅为同等条件下同类方法推理耗时的2.8%~36.6%;模型参数量相比同类模型减少2.5%~17.5%。实验结果表明本文提出的OCR模型具有较高的实用性,能够更好地服务于有低延迟、快速响应需求的场景图像OCR应用。
其他文献
基于知识库的问答系统能够针对用户提出的自然语言问题直接作答,相比于借助形式化查询语句获取知识库内容的方式,问答系统更加智能且高效。依托于大规模知识库的问答系统通常采用流水线工作模式,在这种模式下,系统利用自然语言处理的相关技术确定问题查询的主题实体,并在知识库中抽取主题实体相关的三元组,从中找到与问题相关度最高的组合用以抽取问题的答案。知识库中相互关联的三元组表现为小规模的图结构,这种结构被称为查
随着近几年来自然语言处理技术的迅猛发展,人工智能已经渗透到我们生活的方方面面,各种各样的人工智能产品出现在市场上,人们也逐渐对计算机寄予了越来越高的期望,希望计算机能够帮助人们完成更多更复杂的工作。得益于深度学习和大数据的发展,一些任务导向的对话语音助手也渐渐在人们的日常生活中出现。这些对话语音助手,不仅可以陪用户闲聊,还可以智能化地解决人们很多日常需求,比如听音乐、打电话、订车票等。其背后的主要
随着监控/摄像头覆盖率的不断提升,人们可以越来越方便快捷的获得大量的视频信息,比如课堂视频,小区门岗监控等。传统的依靠人工进行的监察、判断手段缺点越来越明显:观看视频效率低、速度慢;人的注意力容易不集中;人工手段成本过高等。而通过人工智能技术的动作识别算法在复杂的环境下又会出现识别率过低,识别结果不可信的问题。本文使用深度学习技术进行视频的自动识别分析。通过对视频中人物的关节点识别+动作识别来获得
随着互联网与多媒体技术的不断发展,数据传输日益便捷,由此引发了许多侵权、恶意攻击以及盗版等问题,数字水印技术在版权保护方面就显得尤为重要。虽然电子文件逐渐取代了纸质文档,但仍有许多重要文件例如证件、证书、书本等需要制成印刷品,水印的抗打印扫描攻击能力在版权保护中也十分重要。目前,许多学者选择在更不具有可见性的频率变换域中进行水印嵌入,然而在图像频域嵌入水印存在着难以平衡水印隐藏性、鲁棒性以及嵌入容
语义分割是像素级的图像分类任务。相比于其他的计算机视觉任务如图像分类和目标检测而言,语义分割能够提供更加丰富的语义信息。随着深度学习在近些年来的迅猛发展,基于深度学习的语义分割算法已经在自动驾驶、缺陷检测、智慧农业和医疗图像分析等领域拥有了广泛应用。但是目前基于深度学习的语义分割算法的计算量往往都很大,这限制了算法在资源有限的嵌入式设备等平台上的应用。本文首先分析了现有的基于光流法的视频语义分割模
三维重建是三维视觉领域重要的研究分支之一。随着高性能深度传感设备与相关传感技术的飞速发展,三维重建领域吸引了学界越来越广泛的关注与研究,其在自动驾驶、虚拟换装等新兴领域中均具有广阔的应用前景。其中,虚拟换装是随着近年蓬勃发展的电子商务而逐渐兴起的技术。消费者可以通过在虚拟模型上直接进行服装更换来了解试穿效果,以获得更可靠的购物体验。本论文借助深度摄像设备对用户进行采集,并基于得到的点云数据展开三维
随着人工智能技术的发展,许多领域都出现了人工智能与传统行业的深度融合,诞生出了各种改变人们日常生活的应用。医疗作为与民生密切相关的领域,人工智能与医疗进行深度融合必然能够极大地提升人民的生活水平,因此将人工智能深度赋能医疗吸引了许多研究人员、政府人员和企业人员的关注。互联网上丰富的医疗信息和不断发展的自然语言技术,使得对医疗信息的挖掘和应用成为可能。本文针对融合知识的预训练模型在阅读理解中的应用这
计算机断层扫描(Computer Tomograpghy,CT)作为临床上常用的成像手法,具有扫描快,图像清晰的优点,但是标准剂量的CT扫描中所携带的电离辐射对人体的影响不可忽视,这也导致目前低剂量的CT扫描越来越流行。低剂量CT电离辐射会小于标准剂量CT,但是其中所包含的噪声会较大的影响医生的判断。因此本课题所研究的内容就是使用深度学习技术来降低低剂量CT中所包含的噪声。本文主要的研究工作有以下
新医改之前,医疗机构的收入来源有3种,其中药品加成收入是医疗机构的主要收入来源,然而伴随着取消药品加成政策的实施,医疗机构的收入锐减,同时医疗服务价格结构比例失衡现象愈发凸显,其中劳务成本占比低、大型设备检查费用占比高现象显著。在双重问题之下,2016年国家有关部门发布了一系列文件,拉开了此次医疗服务价格改革的序幕,本次医疗服务价格改革以2020年为时间节点,要求在理顺医疗服务比价关系的基础上,逐
甲状腺是通过分泌甲状腺激素来影响人体新陈代谢等功能的一个内分泌器官,甲状腺结节被认为是甲状腺异常的一种主要临床表征。恶性结节会使得甲状腺激素分泌异常进而对人身体健康产生消极影响,随着超声诊断技术的发展,越来越多的结节会被检出,但超声图像本身具有受噪声影响大、成像质量差等特点,再加上结节区域与正常组织区域又具有对比度低、边界模糊、形状大小变化不一等特点,这都加大了阅片医生的诊断难度,而一旦误诊或漏诊