论文部分内容阅读
双语术语抽取是自然语言处理领域的一个重要课题,它被广泛地应用在机器翻译、信息抽取、双语信息检索、辅助机器翻译等方面。本文采用了基于平行语料库的双语术语抽取方法,该方法在单语术语抽取的基础上,从平行语料中统计出共现矩阵,再用相似度函数的方法生成对齐词典,最后抽取出互为翻译的术语对。论文主要工作包括:详细分析了基于平行语料库的双语术语抽取技术,介绍了目前常用的词对齐方法,并将单语抽取的候选术语看作是一个词,然后对语料进行编码,从而把短语对齐转化成了词对齐;详细介绍了四种相似度函数:Dice系数、χ2检验、对数释然比、互信息以及它们的优缺点。统计出平行语料中不同词和术语的共现矩阵,然后用相似度函数的方法计算相关度,生成对齐词典。同时分析此方法的不足,结合多种方法对此进行改善:(1)为减小单语抽取的不平衡,提出使用基于相同原理和方法的单语术语抽取工具;(2)针对中文多词术语到英文单词术语对齐准确率不高的情况,提出用HMM模型优化词对齐,提高了词对齐的准确度,进而提高了双语术语抽取的准确率。基于上述方法,开发了一个双语术语抽取系统,并做了三方面的实验:不同相似度函数对术语抽取正确率的影响、不同语料规模对术语抽取结果的影响、改进之后的方法对术语抽取结果的影响。实验发现:针对本文使用的语料,χ2检验是效果最好的相似度函数;随着语料规模的增大,双语术语抽取的准确率最开始快速提高,最后逐渐趋于稳定;使用HMM模型优化词对齐后,双语术语抽取的准确率提高了2.5%。本文开发的双语术语抽取系统,已经作为商品化软件,在华建IAT辅助翻译系统中投入实际应用。