基于平行语料库的双语术语抽取

被引量 : 0次 | 上传用户:caoenjia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语术语抽取是自然语言处理领域的一个重要课题,它被广泛地应用在机器翻译、信息抽取、双语信息检索、辅助机器翻译等方面。本文采用了基于平行语料库的双语术语抽取方法,该方法在单语术语抽取的基础上,从平行语料中统计出共现矩阵,再用相似度函数的方法生成对齐词典,最后抽取出互为翻译的术语对。论文主要工作包括:详细分析了基于平行语料库的双语术语抽取技术,介绍了目前常用的词对齐方法,并将单语抽取的候选术语看作是一个词,然后对语料进行编码,从而把短语对齐转化成了词对齐;详细介绍了四种相似度函数:Dice系数、χ2检验、对数释然比、互信息以及它们的优缺点。统计出平行语料中不同词和术语的共现矩阵,然后用相似度函数的方法计算相关度,生成对齐词典。同时分析此方法的不足,结合多种方法对此进行改善:(1)为减小单语抽取的不平衡,提出使用基于相同原理和方法的单语术语抽取工具;(2)针对中文多词术语到英文单词术语对齐准确率不高的情况,提出用HMM模型优化词对齐,提高了词对齐的准确度,进而提高了双语术语抽取的准确率。基于上述方法,开发了一个双语术语抽取系统,并做了三方面的实验:不同相似度函数对术语抽取正确率的影响、不同语料规模对术语抽取结果的影响、改进之后的方法对术语抽取结果的影响。实验发现:针对本文使用的语料,χ2检验是效果最好的相似度函数;随着语料规模的增大,双语术语抽取的准确率最开始快速提高,最后逐渐趋于稳定;使用HMM模型优化词对齐后,双语术语抽取的准确率提高了2.5%。本文开发的双语术语抽取系统,已经作为商品化软件,在华建IAT辅助翻译系统中投入实际应用。
其他文献
目的:复制帕金森病(Parkinson’s disease,PD)大鼠模型并根据行为学检查结果对此模型进行较为全面的评价,以期建立治疗此疾病的新型实验平台。方法:运用6-羟多巴胺(6-hydroxy
杀爆弹利用炸药驱动战斗部壳体产生高速破片以杀伤目标,而破片特征与材料的动态力学性能具有密切的关系。本文针对材料动态力学性能对合金圆筒爆轰破片初速、破片数量及质量
<正> 2003年9月松阳县三都乡中心学校及所在地里庄村先后有40名师生、村民及散居儿童出现发热、头痛、腹痛、腹泻等症状。经流行病学调查、临
针对工件在平行机上具有不同加工时间的多功能机床(MFM)环境下混杂流水作业问题(HFSP-MFM),用非连接图模型对其进行建模,提出一种基于蚁群算法的单层算法和三种两层算法对该
土族建筑装饰艺术是我国西北部甘、青两地特有的少数民族建筑装饰艺术形式,它直观地反映了土族的历史、宗教信仰、民俗文化等一系列重要民族特征,是少数民族特色文化与建筑装
<正>我喜欢在操场上或者跑步机上跑步,但却非常讨厌在生活中走路。一直都在问自己,既然能够喜欢上跑步,又为什么如此讨厌走路?当自己实在想不通的时候,我就倒过来想,为什么喜
森林火灾一旦发生,将很难扑救,不仅会造成经济损失惨重,而且会对生态平衡造成严重的破坏。利用视频图像对林区进行监测逐渐成为预防和监测森林火灾的重要手段。基于视频的森
<正> 海盐县某小学自5月31日起学生中陆续出现发热、腹痛、腹泻、恶心、呕吐等症状的病人,至6月6日共发病77人,罹患率46.39%。经现场流行病学调查,临床特征和实验室检查为一起
目的对比动脉血气分析和急诊静脉血液生化检测中钾离子、钠离子浓度的差异和相关性。方法随机抽取2013年1月1日至2013年11月1日在内科病房住院,同时行动脉血气分析和急诊静脉