基于树到树的汉语—纳西语句法统计机器翻译研究

被引量 : 0次 | 上传用户:cheng8023jiajia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译在不同语种之间的交流中起着非常重要的作用,一直是自然语言处理研究的热点和难点。这些年来,世界各地对于少数民族语言文字也越来越重视,纳西语即为其中之,作为古老的象形文字,纳西语在现代文明的冲击下也在慢慢的消亡。为更好的保证纳西文化的传承,对纳西语的研究具有现实的必要性,实现纳西语和汉语的互通互译就具有更重要的意义。纳西语和汉语在句法结构上的差异性很大,所以在做纳西-汉语的机器翻译时,有必要引入纳西句法信息,同时纳西语和汉语存在很多的对齐缺失问题.所以汉语-纳西语的机器翻译有很大的研究空间。本文根据汉语-纳西语的句法特征,取得了以下主要成果:(1)基于树到树的汉语纳西语句法机器翻译方法。为有效利用纳西语句法信息,提出基于树到树的汉语纳西语句法统计翻译方法。该方法为了有效利用源语言、目标语言对应的句法信息,首先收集了汉语纳西语平行对齐语料,并对两端语料进行句法分析,从而得到对应的汉语和纳西语短语句法树。再采用GMKH算法来抽取汉语短语树和纳西语短语树内短语树片段的翻译规则,根据大量翻译规则生成的概率关系来获得翻译模板。最后利用tree-parsing算法和翻译模板来指导解码,由底而上的翻译每个源语言汉语短语树片段,得到最终的译文。与树到串模型对比,实验表明该方法提高了1.2个BLEU值,说明该方法有效的利用了纳西句法信息来改进汉语纳西语句法统计翻译。(2)基于子树对齐的汉语纳西语树到树翻译方法。针对纳西语的句法特点,将子树对齐融入翻译模型并提出训练方法,解决了汉语-纳西语的对齐缺失问题和一对多问题,定义了子树对齐模型,给出了子树对齐模型的推导概率,引入了节点的删除和插入,然后对子树对齐模型进行训练。最终实验结果表明提出的基于子树对齐的树到树翻译模板对于最佳翻译结果的选择有很大的帮助。(3)利用已有的词对齐工具、短语句法分析器等基础软件,结合短语树到树和改进的基于子树对齐的短语树到树翻译模板、解码算法以及语言模型,构建原型系统。
其他文献
变异函数作为地质统计学的主要工具,在地质统计学中占有举足轻重的地位。变异函数包括两种形式:实验变异函数和理论变异函数。对于变异函数的研究主要有变异函数的计算和变异
肺动脉高压(pulmonaryhypertension,PH)是一种临床常见病症,病因复杂,可由多种心、肺或肺血管疾病引起,其发生时肺动脉压增加,从而导致血管重构、右心负荷增大以及心脏衰竭。目前的
近年来,海岸侵蚀呈现不断加剧的趋势,给沿海地区经济社会的发展造成了极大危害。关于三亚湾海岸侵蚀过程及其动力学研究多停留在定性或半定量阶段。从海岸动力地貌学角度出发
湖南南方搏云新材料有限责任公司(以下简称“南方搏云”)成立于2006年7月3日,主营业务为:研发、生产、销售新型碳-碳复合材料制品及其相关设备,并致力于将新型碳-碳复合材料应用于
"个案全过程教学法"是按法的运行过程来向学生培养律师职业技能的一种教学方法。该教学法的价值主要体现在:有助于弥补学科划分所造成的学生知识的片断性和不完整性,提升学生
我国是工业大国,对石油资源有着极大的需求,随着经济发展速度的增快,将加大对石油开采力度,开采过程所造成的环境污染也将进一步加大,若不进行妥善处理,将对环境造成不可逆转
数学教学的情节——“直线与平面平行”的教学镜头片段陕西师范大学数学系罗增儒与语文教学相比,数学教学往往缺少情节,尤其是立体几何开头一段时间的教学更是平淡,学生基本上都
<正>新书架《党的十七届六中全会<决定>学习辅导百问》作者:本书编写组出版:党建读物出版社《六大会战(1937—1945)》作者:陶纯徐志耕等出版:贵州人民出版社《社会主义道德建
郑国和韩国是东周时期前后延续并有一段并存时期的诸侯国。新郑郑韩故城曾先后做过两国的都城。郑、韩两国文化既有共性又有差异,这从墓葬制度方面最能体现出来。本文即对郑、
随着全球化的不断推进,中国与东盟各国的交流越来越频繁。越南作为与中国接壤的国家,与中国在政治、经济、文化等方面的交流更是与日俱增。为了更好的了解越南对中国在政治、