古籍文档图像智能标注系统的设计与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:wpqh918
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中华文化源远流长,古籍文档作为中华文化的重要载体,对其进行数字化处理成为传承中华传统文化的有效途径,同时促进对古籍资源的保护和再利用。海量的古籍文档不可能依赖于人工录入的方式实现数字化,随着计算机视觉技术的发展,借助计算机视觉技术完成古籍文档的数字化成为可能,如实现古籍文档图像中文本的检测与识别。在大数据时代,大量的数据资源和计算资源推动了深度学习的发展,深度学习在计算机视觉领域取得了显著的进步,但相对于传统的机器学习方法,深度学习需要大量的数据,中文古籍文档数据集的匮乏限制了基于深度学习的算法研究,构建适用于进行大规模数据标注的系统成为迫切的需求。考虑到标注工作中完全由人工进行标注需要耗费大量的人力物力,可使用机器学习方法对数据进行预处理,以减少人工标注的工作量。根据以上分析,本文的主要工作总结如下:1)利用了垂直投影方法对原始数据进行列切分和字符切分,在单字字符数据集的基础上,利用了篇幅级文本标注信息训练模型,基于原型学习的卷积神经网络相比基于Softmax的卷积神经网络模型具有更高的精度和更好的泛化性。利用训练的模型对数据进行预处理,借助预处理的结果辅助人工标注,从而提高标注工作效率。2)根据古籍文档图像标注任务需求,设计并实现了基于阿里云平台的古籍文档图像智能标注系统,为大规模的数据标注和数据管理提供有效的工具,通过服务层封装API提供接口服务,同时可集成相关的算法服务,为古籍文档数字化提供了一个极具实用价值的原型系统。3)构建并公开了一个中文古籍文档数据集,包含1000张高丽藏大藏经和1000张多个版本的古籍大藏经数据,完成字符级别的位置信息和文本信息标注。基于该数据集研究了用于中文古籍文档图像文本检测与识别的方法,并开发相关的应用算法服务API,集成到标注系统,提供中文古籍文档图像文本检测与识别的应用服务。
其他文献
第三采油厂目前采用的射线型有源含水分析仪,在使用过程中,安全管理风险较大,后期维护和定期监测评估费用大,在采购、安装、维护、报废等过程中程序较繁琐,不利于油田生产管
随着我国汽车行业的不断发展,现代车辆更加重视轻量化。基于此,本文主要针对铸造铝合金的强韧化展开研究,并介绍了铝合金轮毂的铸旋技术,分析铸旋工艺在铝合金轮毂减重设计中
整车物流是汽车生产销售行业中非常重要的一个问题,轿车运输列车在当今日益发展的整车物流行业起到了至关重要的作用。随着车辆运输市场的进一步规范,中置轴轿车运输列车被从
微流控芯片是一种新型技术,以其在细胞培养、细胞微环境的模拟和控制、单细胞分析、理化控制以及精确图像采集等方面的独特的优势逐步引起关注,该文对其在肿瘤血管生成方面的