论文部分内容阅读
问答系统是集自然语言处理技术和信息检索技术于一身的新一代智能搜索引擎。与传统的搜索引擎相比,问答系统能更好的满足用户的查询要求,更准确地检索出用户所需要的答案。问答系统包括问题理解、查询扩展、文本检索、答案抽取和答案排序,其中,问题理解和答案抽取最为关键。本论文利用自然语言处理技术,研究中文问答系统中的两个关键技术:问题理解和答案抽取。
问题理解是中文问答系统的基础,只有在正确地分析和理解问题的基础上,才有可能返回给用户以正确的答案。问题理解的核心内容是问题特征的抽取和问题分类。本文在前人研究的基础上做了如下工作:(1)针对中文问句的特点,对问句的疑问词和疑问意向词进行分析和提取,并利用知网对疑问意向词进行扩展;(2)利用“问句统一型”表示问句的句型,提高系统处理多种表达形式问句的能力;(3)对问句进行语义角色标注,建立问句的语义角色框架,加强系统对中文问句的语义理解;(4)对问题分类器进行分析,提出利用改进的贝叶斯模型作为分类器,并利用实验对不同的问题分类器进行比较,实验结果表明本文的分类器方法优于其他模型。
答案抽取是问答系统中另一个重要的组成部分,其质量直接影响问答系统的性能。本文先对文本进行指代消解预处理,并提出了一种结合问句的关键词位置、问句长度、问句句型、问句语义角色的句子相似度计算方法,对利用该句子相似度计算方法进行答案的抽取。在实验中,将本文的方法与其他句子相似度进行比较,结果表明本文提出的方法取得了较好的结果。
最后,针对问题理解和答案抽取阶段采用的方法,实现了一个简单的问答系统作为开放式领域问答系统的实验平台。