论文部分内容阅读
中国是一个多民族组成的国家,文化多种多样,语言沟通成为促进民族发展、民族团结和共同繁荣的重要因素,而语言翻译是解决语言沟通不畅问题的主要手段。然而人工翻译已经无法满足人们对翻译的需求。另一方面,利用机器进行语言翻译的理论和技术,在学术界和工业界的不懈努力下不断更新和成熟。响应社会发展、民族团结稳定的号召,机器翻译迫切需要应用到社会生活中。研究针对少数民族语言机器翻译的技术意义重大。本文研究的基于短语的统计机器翻译,运用机器学习思想,以对数线性模型为理论基础,以短语为基本翻译单元,是目前较为先进和成熟的机器翻译方法。尽管该方法在英法、中英等大语种翻译中有令人满意的表现,但是在某些情形下数据稀疏和长距离调序能力弱的问题比较显著。少数民族语法结构与汉语存在较大差异,可获得的语料库规模小,而且针对少数民族语言的计算语言学研究不充分,种种因素使得少数民族语言翻译的效果很难达到应用目标。针对少数民族语言翻译的难点,本文采取基于短语的统计机器翻译技术路线,完成了以下工作:(1)总结了基于短语的统计机器翻译及其关键技术。本文首先对统计机器翻译的数学模型以及翻译流程中的关键步骤进行了完整阐述,接着对翻译结果的自动评测方法做了详尽的论述。(2)提出了一套应对小规模语料库的非连续源短语的翻译策略。传统短语模型只抽取连续短语,为了从少数民族的小规模语料库中挖掘更多信息并加以利用,本文探索了源语言端非连续、目标语言端连续的翻译策略,论证了用于抽取非连续短语的新算法,阐述了改进后的模型并实现了相应的解码算法。(3)提出了一种利用词典消除少数民族翻译中OOV(Out Of Vocabulary)问题的方法。OOV产生是因为语料库无法覆盖所有的词语,本文阐述了加入词典的用于消除OOV的翻译方法,并给出了相应的算法。最后,基于上述创新点和本人的其他相关研究工作,本文实现了一个少数民族语言到汉语的机器翻译系统,并部署到相关单位得到了实际运用。实验结果表明采用了本文的改进算法之后,翻译结果比Baseline的更理想。