论文部分内容阅读
中华文化源远流长,古籍文档作为中华文化的重要载体,对其进行数字化处理成为传承中华传统文化的有效途径,同时促进对古籍资源的保护和再利用。海量的古籍文档不可能依赖于人工录入的方式实现数字化,随着计算机视觉技术的发展,借助计算机视觉技术完成古籍文档的数字化成为可能,如实现古籍文档图像中文本的检测与识别。在大数据时代,大量的数据资源和计算资源推动了深度学习的发展,深度学习在计算机视觉领域取得了显著的进步,但相对于传统的机器学习方法,深度学习需要大量的数据,中文古籍文档数据集的匮乏限制了基于深度学习的算法研究,构建适用于进行大规模数据标注的系统成为迫切的需求。考虑到标注工作中完全由人工进行标注需要耗费大量的人力物力,可使用机器学习方法对数据进行预处理,以减少人工标注的工作量。根据以上分析,本文的主要工作总结如下:1)利用了垂直投影方法对原始数据进行列切分和字符切分,在单字字符数据集的基础上,利用了篇幅级文本标注信息训练模型,基于原型学习的卷积神经网络相比基于Softmax的卷积神经网络模型具有更高的精度和更好的泛化性。利用训练的模型对数据进行预处理,借助预处理的结果辅助人工标注,从而提高标注工作效率。2)根据古籍文档图像标注任务需求,设计并实现了基于阿里云平台的古籍文档图像智能标注系统,为大规模的数据标注和数据管理提供有效的工具,通过服务层封装API提供接口服务,同时可集成相关的算法服务,为古籍文档数字化提供了一个极具实用价值的原型系统。3)构建并公开了一个中文古籍文档数据集,包含1000张高丽藏大藏经和1000张多个版本的古籍大藏经数据,完成字符级别的位置信息和文本信息标注。基于该数据集研究了用于中文古籍文档图像文本检测与识别的方法,并开发相关的应用算法服务API,集成到标注系统,提供中文古籍文档图像文本检测与识别的应用服务。