论文部分内容阅读
随着数字信息的膨胀,大量可用的数字信息对于回答用户的各种问题变成了可利用的资源。传统的信息检索通常会对用户的提问返回成百上千篇文档,而用户必须依靠自己在这些繁多而又充满重复的文档中筛选自己需要的有用信息。为了克服这些不足,近年来,越来越多的研究机构和公司致力于新一代信息检索系统的研究。其中一个很重要的方向就是问答系统。现今大多数的问答系统对于简单的事实性问题和常问问题的回答已经达到了很高的准确率,然而对于特殊领域和复杂问题回答研究的很少,而且准确率不高。本文根据生物医学领域的特点,设计并实现了一个面向生物医学领域的问答系统。本文是对生物医学问答系统的一个探索,系统包括三个主要组成部分:问题处理、信息检索和答案抽取。不同部分运用了不同的自然语言处理技术,因此可以说问答系统是集自然语言处理技术的大成。在问题处理阶段,浅层句法分析的引入,能够有效的将问题分类并提取出关键词,同时生物医学语义资源的应用能够将问题中的关键词进行有效扩展,提高系统的召回率。在答案抽取阶段,为了在文档中找到含有一定信息量并且冗余信息少的文档片断,本文给出了一种段落抽取方法,首先获得相应的自然段,然后在自然段的基础上通过热区找到所需片断的位置。为了节约用户的时间,在返回给用户答案时,利用计算句子相似度的方法有效去掉重复或相近的答案。该系统在TREC(Text Retrieval Conference)的数据集上进行了实验及测评,从各项指标上看,本系统能够有效的回答生物医学问题。