论文部分内容阅读
机器翻译在不同语种之间的交流中起着非常重要的作用,一直是自然语言处理研究的热点和难点。这些年来,世界各地对于少数民族语言文字也越来越重视,纳西语即为其中之,作为古老的象形文字,纳西语在现代文明的冲击下也在慢慢的消亡。为更好的保证纳西文化的传承,对纳西语的研究具有现实的必要性,实现纳西语和汉语的互通互译就具有更重要的意义。纳西语和汉语在句法结构上的差异性很大,所以在做纳西-汉语的机器翻译时,有必要引入纳西句法信息,同时纳西语和汉语存在很多的对齐缺失问题.所以汉语-纳西语的机器翻译有很大的研究空间。本文根据汉语-纳西语的句法特征,取得了以下主要成果:(1)基于树到树的汉语纳西语句法机器翻译方法。为有效利用纳西语句法信息,提出基于树到树的汉语纳西语句法统计翻译方法。该方法为了有效利用源语言、目标语言对应的句法信息,首先收集了汉语纳西语平行对齐语料,并对两端语料进行句法分析,从而得到对应的汉语和纳西语短语句法树。再采用GMKH算法来抽取汉语短语树和纳西语短语树内短语树片段的翻译规则,根据大量翻译规则生成的概率关系来获得翻译模板。最后利用tree-parsing算法和翻译模板来指导解码,由底而上的翻译每个源语言汉语短语树片段,得到最终的译文。与树到串模型对比,实验表明该方法提高了1.2个BLEU值,说明该方法有效的利用了纳西句法信息来改进汉语纳西语句法统计翻译。(2)基于子树对齐的汉语纳西语树到树翻译方法。针对纳西语的句法特点,将子树对齐融入翻译模型并提出训练方法,解决了汉语-纳西语的对齐缺失问题和一对多问题,定义了子树对齐模型,给出了子树对齐模型的推导概率,引入了节点的删除和插入,然后对子树对齐模型进行训练。最终实验结果表明提出的基于子树对齐的树到树翻译模板对于最佳翻译结果的选择有很大的帮助。(3)利用已有的词对齐工具、短语句法分析器等基础软件,结合短语树到树和改进的基于子树对齐的短语树到树翻译模板、解码算法以及语言模型,构建原型系统。