论文部分内容阅读
近年来,基于统计的方法在机器翻译领域内越来越占据到主导地位,多种基于统计方法的机器翻译系统相继出现,如基于短语、基于层次型短语、基于句法等等。而对于机器翻译系统,语料是不可或缺的重要资源,所谓“巧妇难为无米之炊”。“饭”做的好吃还是不好吃,“巧妇”很重,当然也不能没有米,“米”质量的好坏也至关重要。为此,本文重点研究统计机器翻译语料的预处理、双语语料质量的评价,以及语料选取和训练集的构建。另外,对双语术语资源的自动获取工作做了一些简单的介绍。语料预处理工作是一项比较繁琐但对机器翻译来讲又十分重要的任务。本文从传统预处理角度介绍了预处理的流程、相关技术。同时结合专利翻译任务语料预处理对涉及到的一些问题进行了讨论。简单的探讨了预处理对机器翻译性能的影响。另外,针对统计机器翻译双语语料质量参差不齐,并且难以保证的问题,本文比较了几种不同的句对质量评价方法,包括基于双语词典的句对质量评价等。从忠诚度和流畅度两个方面来衡量句对质量。通过实验验证了这些方法的合理性,并对其中存在的问题进行了分析。双语专名、术语翻译资源对于机器翻译来说也是非常重要的。本文基于互联网和学术文献数据库,用自动的方法获取了数百万的双语术语翻译资源,并对资源进行了整理和规范化。这些资源为机器翻译系统提供了重要的资源支撑。当然,这些资源同样可用于中文分词,信息检索等诸多领域。在训练语料的选取和训练集构建方面,本文提出了基于句对质量和覆盖度的统计机器翻译训练语料选取方法,通过实验证明了该方法的有效性。在实验数据上,选取原始规模20%的语料作为训练集即达到用全部预料相当的训练效果。并且将该方法用到具体的实际应用中,为CWMT2011机器翻译评测选取100万中英双语句对作为训练语料。相关实验充分表明了该方法的优势,且简单有效。在测试集给定并且训练语料有限情况下,为了达到更佳的训练效果,需要对原始训练集进行优化。有些研究是从原始的训练集中选择和测试集相似的句对,通过加重这些相似句对权重的方法来优化训练集的分布,达到提高翻译性能的目的。基于这样的思想,本文给出了两种得到和测试集相关语料的方法,初步实验表明,这两种方法均能在一定程度上优化训练集的训练效果。基于之前的工作,本文认为在构建和优化训练集时,领域相似度、句子流畅度、翻译的忠诚度、训练集的覆盖度等应当综合考虑,视具体的任务选择训练集的构建方案。