论文部分内容阅读
随着可获取信息量的增加,人们对信息检索提出了更高要求,最直接的需求就是希望计算机能够理解用户问题,从而尽善尽美地挖掘出所期望的信息。在传统基于关键词字符匹配的信息检索中,参与匹配的只是外在的表现形式,而非它们所表达的语义概念,因此在检索方式上存在刻板、不符合语言思维习惯等缺点,很难满足用户关于精确查询、智能查询的需求。把信息检索从关键词匹配层面提高到语义层面,从概念的语义联系上来认知和处理检索用户的请求成为当前信息检索技术的研究热点。
提高检索质量的关键是建立一套描述自然语言的语义逻辑系统,它不仅能把语言中的语义信息转换成有利于机器处理的逻辑形式,而且根据此逻辑式还可以对搜索引擎的返回结果进行逻辑检测,从而取得用户满意度更高的查询结果。围绕着这个主题,本文对信息检索中的答案抽取技术进行了较深入的研究,提出了用依存句法分析技术解决检索结果的语义判断和检测问题的思路。在这个思路的引导下,本文通过研究提高中文依存分析的精度和效率、符合文本语义结构的句子相似度估计方法、更好地满足答案抽取应用的语言逻辑形式和逻辑转换、比较算法等内容,设计并实现了带语义检测的高精度、多适应性答案抽取系统——DPAES。
同义词、近义词扩展是一种传统的信息检索扩展方法,被用于减少检索过程中的查询失配现象。由于同义词、近义词扩展无法从语义层次延伸更丰富的查询信息,其扩展能力仍然是十分有限的。语义查询扩展通过在检索中结合与查询词具有语义关联的词语,有效延伸关键信息的查询范围,是传统扩展方法的有益和必要的补充。语义查询扩展尚存的问题主要有抽取关联词汇的难度较大和难以寻找合适的检索模型。概率潜在语义分析模型(PLSA)是一种自然语言统计模型,PLSA与其他基于概念词典或概念网络的检索模型相比,具有可计算强、人工参与少等优点。通过PLSA计算常问问题集(FAQs)中问题词和答案词之间对应的语义关联特征,获得一组语义关联度由大到小排列的关联词队列。在检索过程中,关联词队列通过文本推理网络(BIN)引入检索过程,成为查询扩展有益而必要的组成部分。
依存句法分析是答案抽取应用中的文本语料的重要处理步骤,旨在建立词与词之间的依存关系,为自然语言逻辑表示和转换创造条件。传统的依存句法分析方法主要基于规则和数据驱动的产生式概率模型,概率模型以依存结构的独立性假设为基础,与大多数语言事实相违背,因此采用传统方法进行依存句法分析的精度较低。提出基于SVM的产生式依存分析模型,有效结合影响依存句法分析的重要因素,如词性、标点、“的”结构等。与传统模型只进行一次分析计算相比,新模型将产生式模型与SVM方法结合起来,在训练阶段,用产生式概率模型进行依存分析,在测试阶段,采用改进的动态规划算法估计最优依存分析结果。由于训练样本的数量与产生式模型的错误分析有关,而与句子长度无关,因此该方法在有效降低特征向量的规模的同时,能够加快SVM分类器的训练速度并改善分析精度。
依存句法分析建立了词与词之间的依存关联,为自然语言的逻辑表示和转换奠定了基础。自然语言的逻辑形式代表着文本结构的语义联系,由于人类语言的语法成分十分丰富,如果在逻辑转换过程中事无巨细地全盘接受,对返回结果的逻辑检测应用将受到限制。在充分研究自然语义表示基础(逻辑符号、存在性公理、平逻辑式FLF)之上,提出一种面向答案抽取应用的宽约束逻辑描述形式——最小逻辑式(MLF),进而提出基于依存分析的MLF转换算法——DAMT算法。MLF是以FLF为基础,将自然语言的语义对象抽象为事件(Evt)、对象(Obj)、属性(Prop)、存在(At)。在实际应用中,要求为待处理的文本进行MLF转换。为此,提出了基于依存分析的MLF转换算法——DAMT算法,DAMT算法以依存句法分析结果为输入对象,能够自动实现对自然语言的MLF转换。在此基础上,提出了基于MLF的相关度算法。对于每一对MLF谓词对象来说,相关度计算包含两个层次:第一层次为谓词对象本身的相似度计算;第二层次是谓词关联的相似度计算。MLF相关度算法兼顾了自然语言语义表示的上述两个方面内容。
在上述研究的基础上,本文设计并实现了带语义检测的高精度、多适应性答案抽取系统——DPAES,并将上述研究的内容都在DPAES中作了验证。DPAES是一种基于依存语法逻辑转换的中文答案抽取系统,其实现结合了外部知识库以及词语的语义关联特征。DPAES采用简洁有效的基于应用服务器的系统架构,不仅具有平台无关性,而且能在应用程序执行时动态地改变系统的查询策略,这使得DPAES很容易地将新的查询策略扩充到系统中,有利于研究不同查询算法对查询性能的影响。与传统AE系统比较,DPAES的另一个优点是采用较深入的语义分析和逻辑检测技术,有利于减少返回结果中的不相关答案。实验结果表明,带语义检测的DPAES系统的查询性能指标特别是返回答案的质量优于传统的全文检索系统。
在答案抽取系统的研究过程中,本文还对“依存树的相似度”对句子间语义关系的影响作了深入研究。以树的公共结构为基础,遵循越完整的结构、连通性越好的结构,其相似度也越大的评价策略,提出了一种新颖的树结构相似度比较方法-基于连通-整体性约束的相关度评价方法(Connectivity-IntergrityConstraintbasedm+6easure,CI)。该方法解决了传统核值方法出现的高复杂度问题,具有复杂度低的特点,为树结构比较提供了新的思路,同时,也为下一步的研究工作建立了一个基础。
综上,本文在研究过程中,不仅对信息检索领域现有的先进研究成果进行学习和深入研究,并且能在研究过程中不断提出新的想法并通过实验进行验证,同时,又注重理论研究与实际应用的结合。本文的部分论证结论,为中文依存分析技术和答案抽取研究提供了理论和实践上的指导意义。