基于多语言模型融合的鲁棒手写后处理方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：a13692624

【摘要】

：

随着智能终端的飞速发展,在移动端市场上,开发一种具备篇章级连续手写能力的输入法是很有必要的。本文提出了一种全新的手写输入模式,并基于这种模式设计并开发了i OS手写输

【作者】

：

黄哲敏

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2016年期

【关键词】

：

统计语言模型语句级手写后处理鲁棒语言模型循环神经网络错误传递

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着智能终端的飞速发展,在移动端市场上,开发一种具备篇章级连续手写能力的输入法是很有必要的。本文提出了一种全新的手写输入模式,并基于这种模式设计并开发了i OS手写输入法,该输入法能够自动对手写文字进行切分、识别,并通过统计语言模型来提升系统整体的性能。由于汉字具有结构复杂,字体多变,而且不同书写者手写体差异大的特点,仅仅依靠识别器的单字识别,已经很难再进一步提升识别准确率,所以在单字识别的基础上,利用统计语言模型,结合文本上下文信息来对识别结果序列进行后处理是一种有效的方法,但是传统的语言模型均是在N-gram模型的基础上演化得来,即便加入了一些外部特征来降低模型的困惑度,却仍然无法摆脱N-gram模型带来的根源性影响,本文将针对这一问题,提出两种解决途径,一种是修改语言模型来降低错误传递对整体识别结果的影响,另一种是结合循环神经网络来增强模型的路径选择能力。对于第一种途径,本文主要借鉴了神经网络中的双向启发和Skip-gram模型中的跳跃思想,共提出了6种增强系统鲁棒性的方法,并将提升效果最好的跳跃统计模型与循环神经网络进行结合来查找最优路径。实验中,本文以人民日报语料,Wiki百科中文语料以及Sogou在线新闻语料作为训练数据集,在中科院采集的CASIA-OLHWDB2.0,2.1和2.2(总计约135万字的在线连续手写数据集)的部分数据集上进行测试。结果表明,本文提出的跳跃语言模型在增强语言模型的鲁棒性以及消除错误传递的问题上首选率提升了3.35%,并且在修改F值上有很大幅度的提升,从数据上证明了方法在解决错误传递问题的有效性。

其他文献

基于Lucene的全文搜索引擎的应用研究

在过去几年里,Internet的资源迅速增长,使web发展成为包含多种信息资源,站点遍布全球信息服务网络。在这样的大环境下,网络上出现了很多商业性的web搜索引擎,如Google、百度

学位

搜索引擎网络机器人javaLuceneStrutsHibernateSpring

多品种可变批量柔性车间调度算法设计

随着社会的发展,生产力的提高,对企业的生产效率要求越来越高,并且大规模的车间生产已经逐渐成为制造业的主流。研究批量车间调度的优化方法,对于制造业的现代化建设以及指导

学位

可变批量车间调度机器预处理MPGA分批BSA

不规则物体烟花、烟雾的模拟

在计算机动画模拟领域中,对不规则模糊物体的模拟是一项困难而又有意义的课题。　　本文主要对烟花、烟雾两种不规则模糊物体进行了模拟。针对烟花粒子的运动规律,我们采用了

学位

不规则物体烟花粒子纹理映射色彩融合计算机动画模拟

基于XDBase255的嵌入式系统软件设计与研究

本文研究了基于XSBase255开发平台的嵌入式系统软件设计的关键技术,分析了开发平台的相关模块,搭建了宿主机开发环境,探讨了BootLoader技术,完成了Linux内核的定制,设计了相

学位

XDBase255平台嵌入式系统UBootLinux内核网卡驱动程序嵌入式文件系统

基于WebGIS的电信资源系统性能优化研究与应用

据统计,在85%的信息系统中存在着与地理位置有关的信息,在这些信息中,既有空间信息,也有大量以传统数据库表达的非空间信息。随着计算机技术的出现和广泛应用,地图学家认识到

学位

电信资源GIS地图分割地图预生成

嵌入式系统的LCD控制器系统及仿真研究

本文围绕构建LCD控制器系统级模型及其验证过程展开研究。首先,在介绍LCD控制器概念的基础上,分析了LCD控制器工作原理以及S3C2410 LCD控制器的工作机制,详细规划了LCD控制器

学位

嵌入式系统LCD控制器系统级模型SystemC

面向方面技术在交互式辅助教学系统中的应用研究

根据学生自身的情况进行差异化教育和多元化教育一直是教育领域中的理想模式,随着计算机软件的发展,交互式辅助教学系统就是通过这种方式在减轻教师负担的同时又提高了学生的

学位

交互式辅助教学系统方面面向方面的软件开发统一建模语言瑞里统一过程

基于量子密码的信息签名协议的研究与应用

伴随着信息社会的不断进步和发展,信息安全已经成为了一个突出问题,通信安全作为信息安全的最重要部分之一,也受到了广泛的关注。传统的通信安全是通过传统密码的计算复杂性

学位

数字签名量子信息量子密码量子信息签名无条件安全

基于HL7的电子病历模型构建与实现

随着计算机技术的飞速发展,国际医学信息标准化、电子化的推进,利用计算机进行医院病历现代化管理已是时代发展的必然趋势。在医院的现代化管理中,电子病历EMR(Electronic Me

学位

电子病历HL7 V3参考信息模型电子病历模型EAV模型

基于粗糙集理论在数据挖掘中的研究与应用

随着数据库的不断增长,自动从数据库中获取有用的知识成为人们日益迫切的需要。粗糙集理论(Rough Sets)就是在这样背景下不断发展起来的一种用于不精确、不确定数据挖掘与处

学位

数据挖掘粗糙集知识发现属性约简

基于多语言模型融合的鲁棒手写后处理方法

其他学术论文