基于多语言模型融合的鲁棒手写后处理方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:a13692624
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能终端的飞速发展,在移动端市场上,开发一种具备篇章级连续手写能力的输入法是很有必要的。本文提出了一种全新的手写输入模式,并基于这种模式设计并开发了i OS手写输入法,该输入法能够自动对手写文字进行切分、识别,并通过统计语言模型来提升系统整体的性能。由于汉字具有结构复杂,字体多变,而且不同书写者手写体差异大的特点,仅仅依靠识别器的单字识别,已经很难再进一步提升识别准确率,所以在单字识别的基础上,利用统计语言模型,结合文本上下文信息来对识别结果序列进行后处理是一种有效的方法,但是传统的语言模型均是在N-gram模型的基础上演化得来,即便加入了一些外部特征来降低模型的困惑度,却仍然无法摆脱N-gram模型带来的根源性影响,本文将针对这一问题,提出两种解决途径,一种是修改语言模型来降低错误传递对整体识别结果的影响,另一种是结合循环神经网络来增强模型的路径选择能力。对于第一种途径,本文主要借鉴了神经网络中的双向启发和Skip-gram模型中的跳跃思想,共提出了6种增强系统鲁棒性的方法,并将提升效果最好的跳跃统计模型与循环神经网络进行结合来查找最优路径。实验中,本文以人民日报语料,Wiki百科中文语料以及Sogou在线新闻语料作为训练数据集,在中科院采集的CASIA-OLHWDB2.0,2.1和2.2(总计约135万字的在线连续手写数据集)的部分数据集上进行测试。结果表明,本文提出的跳跃语言模型在增强语言模型的鲁棒性以及消除错误传递的问题上首选率提升了3.35%,并且在修改F值上有很大幅度的提升,从数据上证明了方法在解决错误传递问题的有效性。
其他文献
在过去几年里,Internet的资源迅速增长,使web发展成为包含多种信息资源,站点遍布全球信息服务网络。在这样的大环境下,网络上出现了很多商业性的web搜索引擎,如Google、百度
随着社会的发展,生产力的提高,对企业的生产效率要求越来越高,并且大规模的车间生产已经逐渐成为制造业的主流。研究批量车间调度的优化方法,对于制造业的现代化建设以及指导
在计算机动画模拟领域中,对不规则模糊物体的模拟是一项困难而又有意义的课题。  本文主要对烟花、烟雾两种不规则模糊物体进行了模拟。针对烟花粒子的运动规律,我们采用了
本文研究了基于XSBase255开发平台的嵌入式系统软件设计的关键技术,分析了开发平台的相关模块,搭建了宿主机开发环境,探讨了BootLoader技术,完成了Linux内核的定制,设计了相
据统计,在85%的信息系统中存在着与地理位置有关的信息,在这些信息中,既有空间信息,也有大量以传统数据库表达的非空间信息。随着计算机技术的出现和广泛应用,地图学家认识到
本文围绕构建LCD控制器系统级模型及其验证过程展开研究。首先,在介绍LCD控制器概念的基础上,分析了LCD控制器工作原理以及S3C2410 LCD控制器的工作机制,详细规划了LCD控制器
根据学生自身的情况进行差异化教育和多元化教育一直是教育领域中的理想模式,随着计算机软件的发展,交互式辅助教学系统就是通过这种方式在减轻教师负担的同时又提高了学生的
伴随着信息社会的不断进步和发展,信息安全已经成为了一个突出问题,通信安全作为信息安全的最重要部分之一,也受到了广泛的关注。传统的通信安全是通过传统密码的计算复杂性
随着计算机技术的飞速发展,国际医学信息标准化、电子化的推进,利用计算机进行医院病历现代化管理已是时代发展的必然趋势。在医院的现代化管理中,电子病历EMR(Electronic Me
随着数据库的不断增长,自动从数据库中获取有用的知识成为人们日益迫切的需要。粗糙集理论(Rough Sets)就是在这样背景下不断发展起来的一种用于不精确、不确定数据挖掘与处