论文部分内容阅读
在人类发展的岁月长河里,各族人民留下了弥足珍贵的历史足迹。历史文献作为重要的信息载体,对研究人们早期的生产、生活方式具有极其重要的价值和深远意义。藏族是我国拥有悠久历史文化,并且拥有本民族语言和文字的少数民族之一。藏族人民创造了极具特色的高原文化,在多个领域留下了丰富的文化遗产。藏文历史文献是研究藏族历史文化和藏传佛教的重要途径,近年来受到了众多学者的广泛关注。但由于藏文历史文献历史悠久,每一次的查阅都可能会对文献造成毁灭性的破坏。对藏文历史文献进行数字化保护,不仅能够保护纸质脆弱的历史文献,也能够提高文献的利用率。早期的藏文历史文献多采用木刻板印刷,随着墨迹扩散、潮湿等因素的影响,文献中产生了大量的粘连字丁串。针对英语、汉语、日语和阿拉伯数字等粘连字丁串的研究已经卓有成效,但尚未有针对藏文历史文献粘连字丁串的相关研究。为了探索藏文历史文献中粘连字丁串的切分和识别任务,本文作了如下研究工作:首先,本文介绍了国内外对于其他语言的粘连字丁串切分与识别以及藏文历史文献的研究现状和前沿动态,分析了学者对该课题的研究工作,总结了在处理该问题时常用方法和技巧,对本文关于藏文历史文献中粘连字丁串的切分与识别研究工作提供了很好的借鉴和帮助。其次,由于对藏文历史文献粘连字丁串的研究非常匮乏,该领域并没有任何公开发表的数据库。本文在藏文历史文献图像中利用连通区域分析的方式筛选了7,500张粘连字丁串,并使用XML文件对粘连字丁串的粘连点坐标、粘连字丁类别等进行了标注,构建了第一个藏文历史文献粘连字丁串数据库。本文通过对经典的滴水算法利用最短路径进行了改进,使算法对藏文粘连字丁串形成的切分路径更加合理。经过试验分析,本文发现改进后的滴水算法在粘连模式简单的藏文粘连字丁串中召回率达到73.02%。再次,经过对藏文文字结构的分析,本文提出了一种基于轮廓特征点检测的过切分算法。该算法首先通过藏文基线将藏文字丁分成上元音区域和辅音字母区域两部分;然后对于上元音区域,利用SVM-上元音分类器对上元音区域的特征点进行筛选,对于辅音字母区域,利用规则进行特征点筛选;最后利用特征点构建切分路径。本方法在粘连模式复杂的藏文粘连字丁串中召回率达到了81.42%。最后,本文利用深度学习框架,分别开发了复杂藏文历史文献文本和藏文拉丁转写文本的识别系统,实现了图像文本识别功能。