【摘 要】
:
随着计算机技术的不断发展,机器翻译方法也经历了漫长的研究历程。近年来,人工神经网络的研究给机器翻译带来了全新的解决方案。序列-序列模型的应用使机器翻译性能获得了质
论文部分内容阅读
随着计算机技术的不断发展,机器翻译方法也经历了漫长的研究历程。近年来,人工神经网络的研究给机器翻译带来了全新的解决方案。序列-序列模型的应用使机器翻译性能获得了质的飞跃。神经机器翻译模型的训练依赖于大规模的双语平行数据,数据中蕴含了充分的知识供机器学习,训练过程就是数据表示和知识提取过程。如何利用数据增强方法,使模型学习得更容易,知识提取得更充分,是一个重要的研究课题。本文从两方面对数据增强方法展开研究。一方面,数据中复杂知识的简化有助于模型的学习。如句子中复杂数字短语是机器翻译的主要问题之一,模型很难从有限的样例中学会两种语言之间数字及单位信息的正确翻译规则,也因此会影响整句的句意转述。相反,人可以很容易地描述出互译规则送给机器,机器只需要专注翻译它更擅长的数据就可以。因此本文通过数据增强方法增强简单数字短语的学习,同时简化句子中的复杂数字短语,并构造外部翻译模块,实现神经机器翻译模型对携带复杂数字信息的句子的翻译。另一方面,单语数据在机器翻译任务中仍未被充分使用。经过研究发现,源端单语数据和目标端单语数据在训练中有助于提高编码能力和解码倾向。另外,很多场景中,人们希望将机器翻译应用到特定领域。但某些领域的双语平行数据十分有限,不具备充分训练模型的能力,因此我们尝试在训练中加入领域内单语数据。由于训练中编码端和解码端需要输入对照的原文和译文,文中通过数据自学习的方式使其参与训练,从而引导解码端的输出倾向,改善模型的领域适应能力。实验结果表明,本文的数据增强方法和数字短语优化方法,在神经机器翻译中取得了不错的效果。复杂数字短语实现了97%以上的翻译准确率;领域适应实验结果比基线提高了至少2个BLEU值。
其他文献
文章综述了近年来国内外有关三维电极技术在废水处理中的研究成果,介绍了三维电极技术的分类和反应机理,重点阐述了三维电极反应器、极板材料、粒子电极的研究现状,概述了三
采用氨基酸自动分析仪测定驴肉的氨基酸组成。结果表明驴肉中氨基酸总量为23.47%,其中必需氨基酸占氨基酸总量的39.41%。根据氨基酸评分(AAS),第一限制性氨基酸为异亮氨酸;根据化学评
目的为临床提供快速、准确、方便的链球菌药敏试验测定方法,比较ThermoSTP6F药敏测定卡与金标准微量肉汤稀释法测定链球菌对抗菌药物的敏感性。方法按CLSI要求,用ThermoSTP6F
针对抛物柱曲面镀银玻璃太阳能聚光器聚光不均匀、加工费用高及银反射层易脱落等三大缺陷,研制出了一种用'多折面'代替'曲面'、用'镀银双层玻璃'代
随着时代的变化,科学技术的发展,医院后勤团队的工作受到了社会的广泛关注。发展医院后勤保障的安全性和有效性,是保证临床、教学、科研和卫生事业顺利发展的前提。为患者及
含摩擦和间隙的碰撞振动系统在机械、车辆工程等应用领域中经常遇到,如圆柱滚子轴承转动系统、车辆盘形制动系统等,这类碰撞振动系统常常受到动摩擦和随机因素的影响,系统的
目的:探讨循证护理对消化内科住院患者遵医行为及康复效果的影响。方法:将2015年9月~2016年3月收治的51例消化内科住院患者作为对照组,实施一般院内护理流程;将2016年4~11月间
设计了针对圆管吸收器的折面形抛物柱反射镜,太阳光按32′角度入射计算。计算了聚光器的焦距、吸收管径和反光镜尺寸等参数,研究了折面尺寸对聚光性能的影响,推导了不同折面尺寸
目的探讨妊娠高血压综合征患者采用人性化护理对其妊娠结局的影响。方法随机将本院收治的妊娠高血压综合征的86例患者按照入院时间分为两组,甲组采用常规护理,乙组采用人性化
法国法兰西银行货币政策委员会委员、著名经济学家阿尔贝尔院士最近在他的专著《资本主义反对资本主义》中文版(社科文献出版社出版)首发式上说,原来认为是统一的、一致的资