词搭配抽取及在信息检索中的应用研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wangcong1001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搭配描述的是词与词之间组合在一起表达某种特殊含义的词汇现象,在词和短语之间架起了一个桥梁,是语言信息处理链条上重要的一环。随着统计机器学习和自然语言处理技术的发展,基于大规模语料库知识的自动获取成为趋势。建立高质量的单语和双语搭配词汇知识资源不仅对语言本体研究有着重要的理论意义;在自然语言处理应用领域,如机器翻译、信息检索及跨语言信息检索等也有着广泛的应用前景。信息抽取是从文档中自动获取信息的一种重要手段,搭配抽取涉及的是单词之间的关系抽取,是信息抽取的一项子任务。本文借鉴信息抽取中常用算法和统计机器学习模型,通过多种统计量融合和多分类器融合的方法进行单词之间的搭配抽取。并将获取的单语和双语搭配应用于信息检索中的查询扩展和查询翻译,提高最终检索性能。具体来讲,本文主要从以下几方面做了研究:1.提出基于多统计量融合与多分类器融合的搭配抽取方法。目前的方法都是基于单一词汇关联方法的,没有考虑每一种方法的优缺点和适用范围,本论文提出一种基于线性回归模型的搭配抽取方法,融合了五种经典统计关联方法,包括互信息、共现频率、t检验、χ2检验、对数似然比检验,充分融合实现优势互补。数据来自Web反馈信息,根据候选搭配及构成词在谷歌出现的页面数模拟在语料库出现的次数。同时针对多统计量融合对于某些类型搭配的缺陷,提出多分类器融合的策略。本文主要研究异态学习模型,融合的模型来自三种不同的分类器算法,包括支持向量机、最大熵和条件随机域,融合策略使用投票法和线性加权方法。2.提出一种英汉双语搭配翻译模型。英语和汉语两种语言之间,有这样的假设,相同的依存句法关系之间存在着强烈的相互对应关系。本论文借鉴统计机器翻译模型,提出一种双语搭配翻译模型。分别通过词对齐级的双语语料库和单语语料库训练统计翻译模型和目标语言模型,这种充分利用单语语料库和双语语料库的双语搭配翻译模型获得良好的性能。3.研究了词搭配关系应用于信息检索的查询扩展中。传统的查询扩展方法都是通过单词之间共现关系或WordNet词典关系的,本论文选择同时具有语义和句法关系的搭配单词进行查询扩展。在传统语言模型框架下扩展查询模型,借鉴了局部上下文分析技术,同时结合了语言学知识和统计信息。在一定程度上可以弥补用户查询信息不足的缺陷,实验结果表明可以大大提高检索性能。4.研究了双语搭配应用于跨语言信息检索的查询翻译中。基于双语字典的查询翻译策略目前是跨语言信息检索主流方法,但容易出现两类问题:一为译词选择歧义问题;二是词典覆盖率问题,再大的词典也不可能收录所有的翻译选项。针对第一类问题本文分别提出了双语衰减共现模型和双语搭配翻译模型两种统计方法。前者在传统的共现方法中引入距离位置因子,着重考虑单词间的关联程度随着间距而变化;后者将搭配关系融入到跨语言的查询翻译中。针对未登录词(OOV)翻译,本论文提出一种基于Web反馈数据的OOV识别方法。
其他文献
数字时代传媒产业模式和内容发生了新的变化,编辑的传播理念和媒介素养受到挑战,编辑不再是单一的稿件把关人,而是转向知识传播,工作重心由重出版转向重传播效果。数字时代提
近年来,在平行语料库研究方面,专家学者越来越倾向于对语料库语言学的研究;由此,自然语言处理领域的专家学者们都意识到了高质量、大规模汉英平行语料库巨大的研究价值;另外,
通过对柴达木盆地西部南区七个泉油田2口油井原油样品生物标志物特征的系统分析表明:七个泉油田正构烷烃分布完整,主峰碳为C22,CPI<1,呈偶碳优势,Pr/Ph低,反映其母质源岩来自
行为监管是一国金融监管部门对金融机构经营行为提出的规范性要求和实施的监督管理。本文从产品和机构两个不同维度探讨了行为监管的四种基本选择及六种主要模式,其中,重点对
经济的区域化和全球化是当今世界发展的一个重要趋势,不同地区、不同国别的经济交流日趋频繁。在“走出去”和“引进来”的经济发展战略下,国内企业已经面向世界并走向世界,
尤建良教授善用中医药治疗大肠癌,运用守中调气、通腑攻下、清热解毒法以及与化疗有机结合,改善大肠癌患者生活质量,延长存活期。
<正> 长期以来,人们一直称“老干部、老专家、老工人是党和国家的宝贵财富。”而在我看来,人们通常使用的这种提法是不科学的。因为我们老年人退休后如果没有给国家再创造效
期刊
受汉语本体"词组本位"观的影响,在对外汉语教学中,人们越来越重视词组的教学。但是以词组为基点的对外汉语教学还更多地处于理论阶段,缺乏教学实践的检验与分析。本文在分析
总宽度达35.4m的福州市二环路象山隧道,于1996年2月建成通车,是国内目前投入使用的最大跨度的城市道路隧道。象山隧道埋深为2~23m,上部覆盖层主要为第四纪残、坡积砂质粘土和
在"双创"时代,建筑业需要大量工程造价应用型人才,工程造价专业需要根据培养目标调整人才培养方案。本文从五个方面研究创新创业的教育途径,以期为工程造价专业的教育提供依