面向统计机器翻译的语料处理与评价技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:Coolbear
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于统计的方法在机器翻译领域内越来越占据到主导地位,多种基于统计方法的机器翻译系统相继出现,如基于短语、基于层次型短语、基于句法等等。而对于机器翻译系统,语料是不可或缺的重要资源,所谓“巧妇难为无米之炊”。“饭”做的好吃还是不好吃,“巧妇”很重,当然也不能没有米,“米”质量的好坏也至关重要。为此,本文重点研究统计机器翻译语料的预处理、双语语料质量的评价,以及语料选取和训练集的构建。另外,对双语术语资源的自动获取工作做了一些简单的介绍。语料预处理工作是一项比较繁琐但对机器翻译来讲又十分重要的任务。本文从传统预处理角度介绍了预处理的流程、相关技术。同时结合专利翻译任务语料预处理对涉及到的一些问题进行了讨论。简单的探讨了预处理对机器翻译性能的影响。另外,针对统计机器翻译双语语料质量参差不齐,并且难以保证的问题,本文比较了几种不同的句对质量评价方法,包括基于双语词典的句对质量评价等。从忠诚度和流畅度两个方面来衡量句对质量。通过实验验证了这些方法的合理性,并对其中存在的问题进行了分析。双语专名、术语翻译资源对于机器翻译来说也是非常重要的。本文基于互联网和学术文献数据库,用自动的方法获取了数百万的双语术语翻译资源,并对资源进行了整理和规范化。这些资源为机器翻译系统提供了重要的资源支撑。当然,这些资源同样可用于中文分词,信息检索等诸多领域。在训练语料的选取和训练集构建方面,本文提出了基于句对质量和覆盖度的统计机器翻译训练语料选取方法,通过实验证明了该方法的有效性。在实验数据上,选取原始规模20%的语料作为训练集即达到用全部预料相当的训练效果。并且将该方法用到具体的实际应用中,为CWMT2011机器翻译评测选取100万中英双语句对作为训练语料。相关实验充分表明了该方法的优势,且简单有效。在测试集给定并且训练语料有限情况下,为了达到更佳的训练效果,需要对原始训练集进行优化。有些研究是从原始的训练集中选择和测试集相似的句对,通过加重这些相似句对权重的方法来优化训练集的分布,达到提高翻译性能的目的。基于这样的思想,本文给出了两种得到和测试集相关语料的方法,初步实验表明,这两种方法均能在一定程度上优化训练集的训练效果。基于之前的工作,本文认为在构建和优化训练集时,领域相似度、句子流畅度、翻译的忠诚度、训练集的覆盖度等应当综合考虑,视具体的任务选择训练集的构建方案。
其他文献
传统的基于分布式以太网结构的汽车检测控制系统存在结构复杂、投资成本高、不易大规模推广等不足,采用以太网通信容易受病毒侵扰,其实时性和可靠性也难以得到保证。针对以上
传感器网络是一种无线网络,它们广泛应用于环境监控、目标跟踪、建筑物安全监测、农业精细化耕种、活火山监测、运输业监控、人类活动监控以及其他监控领域。传感器网络的数据
万维网产生之后,将遍布全球各地的计算机联系到一起,这些计算机中的数据资源组成了规模庞大的数据库。面对如此庞大的数据库,寻找真正想要的信息无异于大海捞针。如何发现大
随着软件系统需求的不断变化,软件系统也需要随之更新。对于静态体系结构的软件系统而言,软件扩展、更新和维护需要系统停止运行,这将为软件系统带来高额的代价。在运行时可以动
数据仓库查询一直是数据库领域的研究重点。近年的研究发现列存储体系仅从磁盘或内存中读取与查询相关的列,相对于行存储来说,更适合OLAP、数据仓库等查询密集型应用。作为一
作为网络应用服务中最关键的设备,服务器的安全、高效运行显得至关重要,目前,服务器管理方式主要有人工管理、监控软件管理、KVM管理、专有工具管理等,以上几种方式均存在着
随着网络的发展和信息化进程的加快和深入,越来越多的电子商务网站的出现成为一种新的趋势,而且随着这样的网站的规模越来越大,网站的数据量也越来越多,致使用户要在这些数据中找
近年来,随着传感器技术、通信技术、嵌入式和分布式计算技术的快速发展和日益成熟,无线传感器网络开始在世界范围内出现。传统的数据库管理系统适合处理有限存储数据集的一次
基于NAND Flash芯片的固态盘具有非易失、随机读性能好、抗抖动且能耗低的优点。但是NAND Flash需要擦后写,并导致高延迟的垃圾回收过程,这一过程中芯片不能响应读写请求,导
当前,中国高速铁路的建设正处于快速发展时期。CTCS-3级列控系统是中国列车运行控制系统(Chinese Train Control System,简称CTCS)的重要组成部分,基于GSM-R无线通信实现车-地信