藏文历史文献中粘连字丁串的切分与识别

来源 :北京工业大学 | 被引量 : 2次 | 上传用户:f11034
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人类发展的岁月长河里,各族人民留下了弥足珍贵的历史足迹。历史文献作为重要的信息载体,对研究人们早期的生产、生活方式具有极其重要的价值和深远意义。藏族是我国拥有悠久历史文化,并且拥有本民族语言和文字的少数民族之一。藏族人民创造了极具特色的高原文化,在多个领域留下了丰富的文化遗产。藏文历史文献是研究藏族历史文化和藏传佛教的重要途径,近年来受到了众多学者的广泛关注。但由于藏文历史文献历史悠久,每一次的查阅都可能会对文献造成毁灭性的破坏。对藏文历史文献进行数字化保护,不仅能够保护纸质脆弱的历史文献,也能够提高文献的利用率。早期的藏文历史文献多采用木刻板印刷,随着墨迹扩散、潮湿等因素的影响,文献中产生了大量的粘连字丁串。针对英语、汉语、日语和阿拉伯数字等粘连字丁串的研究已经卓有成效,但尚未有针对藏文历史文献粘连字丁串的相关研究。为了探索藏文历史文献中粘连字丁串的切分和识别任务,本文作了如下研究工作:首先,本文介绍了国内外对于其他语言的粘连字丁串切分与识别以及藏文历史文献的研究现状和前沿动态,分析了学者对该课题的研究工作,总结了在处理该问题时常用方法和技巧,对本文关于藏文历史文献中粘连字丁串的切分与识别研究工作提供了很好的借鉴和帮助。其次,由于对藏文历史文献粘连字丁串的研究非常匮乏,该领域并没有任何公开发表的数据库。本文在藏文历史文献图像中利用连通区域分析的方式筛选了7,500张粘连字丁串,并使用XML文件对粘连字丁串的粘连点坐标、粘连字丁类别等进行了标注,构建了第一个藏文历史文献粘连字丁串数据库。本文通过对经典的滴水算法利用最短路径进行了改进,使算法对藏文粘连字丁串形成的切分路径更加合理。经过试验分析,本文发现改进后的滴水算法在粘连模式简单的藏文粘连字丁串中召回率达到73.02%。再次,经过对藏文文字结构的分析,本文提出了一种基于轮廓特征点检测的过切分算法。该算法首先通过藏文基线将藏文字丁分成上元音区域和辅音字母区域两部分;然后对于上元音区域,利用SVM-上元音分类器对上元音区域的特征点进行筛选,对于辅音字母区域,利用规则进行特征点筛选;最后利用特征点构建切分路径。本方法在粘连模式复杂的藏文粘连字丁串中召回率达到了81.42%。最后,本文利用深度学习框架,分别开发了复杂藏文历史文献文本和藏文拉丁转写文本的识别系统,实现了图像文本识别功能。
其他文献
从材料、设计和施工三个层面分析道桥防水路基面受损的原因,结合防水路基处理的原则,提出了改善和加强道桥施工中防水路基面的措施,以期为今后道桥路基面防水施工提供参考依
对氧化铝浸水后的现象及灼减发生的变化进行研究,探讨氧化铝生产中,氧化铝随放置时间的延长灼减上升的原因。
矿井地质构造预测是人们普遍关注且十分重要的一个长期性课题。本文针对这一难题,从理论到实际介绍了定量评价和预测构造复杂程度的一整套研究方法。首先指出从研究控制矿井
主观叙述是作者站在主观的立场上叙述,以情感人,客观叙述只是按照人、事、物的原样进行叙写,没有明显的感情色彩.二者的表达方式在目的、人称运用、内容表达和语言风格等方面
<正> 邓××,男,56岁,1985年9月6日诊。患者于三周前曾连续5天采集补骨脂果穗,每天约1小时。就诊前三天发现手背部皮肤有数处黑斑,不痛,无痒感。诊见两手背面皮肤有11处大小
从分类法和主题法的异同入手,着重分析了分类主题一体化理论的可能性、必要性和优越性,并简要介绍了中国在这方面的理论和实践的进程 Starting with the similarities and dif
为迎接建国60周年,纪念《农机化促进法》颁布实施5周年,进一步推动全国农机推广、农机监理系统的精神文明、行业文化建设,活跃和丰富广大农机推广和监理人员的文化生活,提高
期刊
综述了最近几年来锂离子二次电池负极材料的研究。研究的负极材料主要有:改性碳材料、氮化物、硅化物、氧化物和新型合金。通过引入金属和非金属元素,碳材料的可逆容量、循环性
在信息化的大背景下,倡导和探索信息技术在数学教学中的应用,将复杂抽象的数学概念变得形象生动,对于发展学生的信息素养,培养学生的创新精神和实践能力有着十分重要的现实意
一、引言企业文化是在一定的经济、社会条件下形成的为全体成员遵循的共同意识、价值观、职业道德、行为规范和准则的总和,包括人们相互影响的行为、共同遵守的规范和标准、