中文语义依存分析技术及其答案抽取应用的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:tu139201103
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着可获取信息量的增加,人们对信息检索提出了更高要求,最直接的需求就是希望计算机能够理解用户问题,从而尽善尽美地挖掘出所期望的信息。在传统基于关键词字符匹配的信息检索中,参与匹配的只是外在的表现形式,而非它们所表达的语义概念,因此在检索方式上存在刻板、不符合语言思维习惯等缺点,很难满足用户关于精确查询、智能查询的需求。把信息检索从关键词匹配层面提高到语义层面,从概念的语义联系上来认知和处理检索用户的请求成为当前信息检索技术的研究热点。 提高检索质量的关键是建立一套描述自然语言的语义逻辑系统,它不仅能把语言中的语义信息转换成有利于机器处理的逻辑形式,而且根据此逻辑式还可以对搜索引擎的返回结果进行逻辑检测,从而取得用户满意度更高的查询结果。围绕着这个主题,本文对信息检索中的答案抽取技术进行了较深入的研究,提出了用依存句法分析技术解决检索结果的语义判断和检测问题的思路。在这个思路的引导下,本文通过研究提高中文依存分析的精度和效率、符合文本语义结构的句子相似度估计方法、更好地满足答案抽取应用的语言逻辑形式和逻辑转换、比较算法等内容,设计并实现了带语义检测的高精度、多适应性答案抽取系统——DPAES。 同义词、近义词扩展是一种传统的信息检索扩展方法,被用于减少检索过程中的查询失配现象。由于同义词、近义词扩展无法从语义层次延伸更丰富的查询信息,其扩展能力仍然是十分有限的。语义查询扩展通过在检索中结合与查询词具有语义关联的词语,有效延伸关键信息的查询范围,是传统扩展方法的有益和必要的补充。语义查询扩展尚存的问题主要有抽取关联词汇的难度较大和难以寻找合适的检索模型。概率潜在语义分析模型(PLSA)是一种自然语言统计模型,PLSA与其他基于概念词典或概念网络的检索模型相比,具有可计算强、人工参与少等优点。通过PLSA计算常问问题集(FAQs)中问题词和答案词之间对应的语义关联特征,获得一组语义关联度由大到小排列的关联词队列。在检索过程中,关联词队列通过文本推理网络(BIN)引入检索过程,成为查询扩展有益而必要的组成部分。 依存句法分析是答案抽取应用中的文本语料的重要处理步骤,旨在建立词与词之间的依存关系,为自然语言逻辑表示和转换创造条件。传统的依存句法分析方法主要基于规则和数据驱动的产生式概率模型,概率模型以依存结构的独立性假设为基础,与大多数语言事实相违背,因此采用传统方法进行依存句法分析的精度较低。提出基于SVM的产生式依存分析模型,有效结合影响依存句法分析的重要因素,如词性、标点、“的”结构等。与传统模型只进行一次分析计算相比,新模型将产生式模型与SVM方法结合起来,在训练阶段,用产生式概率模型进行依存分析,在测试阶段,采用改进的动态规划算法估计最优依存分析结果。由于训练样本的数量与产生式模型的错误分析有关,而与句子长度无关,因此该方法在有效降低特征向量的规模的同时,能够加快SVM分类器的训练速度并改善分析精度。 依存句法分析建立了词与词之间的依存关联,为自然语言的逻辑表示和转换奠定了基础。自然语言的逻辑形式代表着文本结构的语义联系,由于人类语言的语法成分十分丰富,如果在逻辑转换过程中事无巨细地全盘接受,对返回结果的逻辑检测应用将受到限制。在充分研究自然语义表示基础(逻辑符号、存在性公理、平逻辑式FLF)之上,提出一种面向答案抽取应用的宽约束逻辑描述形式——最小逻辑式(MLF),进而提出基于依存分析的MLF转换算法——DAMT算法。MLF是以FLF为基础,将自然语言的语义对象抽象为事件(Evt)、对象(Obj)、属性(Prop)、存在(At)。在实际应用中,要求为待处理的文本进行MLF转换。为此,提出了基于依存分析的MLF转换算法——DAMT算法,DAMT算法以依存句法分析结果为输入对象,能够自动实现对自然语言的MLF转换。在此基础上,提出了基于MLF的相关度算法。对于每一对MLF谓词对象来说,相关度计算包含两个层次:第一层次为谓词对象本身的相似度计算;第二层次是谓词关联的相似度计算。MLF相关度算法兼顾了自然语言语义表示的上述两个方面内容。 在上述研究的基础上,本文设计并实现了带语义检测的高精度、多适应性答案抽取系统——DPAES,并将上述研究的内容都在DPAES中作了验证。DPAES是一种基于依存语法逻辑转换的中文答案抽取系统,其实现结合了外部知识库以及词语的语义关联特征。DPAES采用简洁有效的基于应用服务器的系统架构,不仅具有平台无关性,而且能在应用程序执行时动态地改变系统的查询策略,这使得DPAES很容易地将新的查询策略扩充到系统中,有利于研究不同查询算法对查询性能的影响。与传统AE系统比较,DPAES的另一个优点是采用较深入的语义分析和逻辑检测技术,有利于减少返回结果中的不相关答案。实验结果表明,带语义检测的DPAES系统的查询性能指标特别是返回答案的质量优于传统的全文检索系统。 在答案抽取系统的研究过程中,本文还对“依存树的相似度”对句子间语义关系的影响作了深入研究。以树的公共结构为基础,遵循越完整的结构、连通性越好的结构,其相似度也越大的评价策略,提出了一种新颖的树结构相似度比较方法-基于连通-整体性约束的相关度评价方法(Connectivity-IntergrityConstraintbasedm+6easure,CI)。该方法解决了传统核值方法出现的高复杂度问题,具有复杂度低的特点,为树结构比较提供了新的思路,同时,也为下一步的研究工作建立了一个基础。 综上,本文在研究过程中,不仅对信息检索领域现有的先进研究成果进行学习和深入研究,并且能在研究过程中不断提出新的想法并通过实验进行验证,同时,又注重理论研究与实际应用的结合。本文的部分论证结论,为中文依存分析技术和答案抽取研究提供了理论和实践上的指导意义。
其他文献
随着信息化进程的加快,信息安全在各个行业显得尤为重要,而身份认证则是保证信息安全的重要手段。利用建立在Public Key Infrastructure(公钥基础设施)上的数字证书把信息进
随着计算机网络技术的发展和数字化技术的不断成熟,使得通过互联网发布和获取图像、语音、视频等电子数据更加便利,但随之而来的副作用也十分明显,比如篡改和非法传播变得非常容
无线局域网是计算机网络与无线通信技术相结合的产物。从专业角度讲,无线局域网利用了无线多址信道的一种有效方法来支持计算机之间的通信,并为通信的移动化、个性化和多媒体
随着Internet/Intranet的出现,计算机及其应用领域正发生着深刻的革命,计算机的应用正向着协同工作的方向发展。以此同时,分布式处理技术(CORBA,WWW,OLE,JAVA)日益成熟。在这
移动自组网是一组带有无线收发装置的移动节点组成的一种多跳的无线网络。将组播技术的有效性与移动自组网的特殊优势相结合,在移动自组网环境下开发基于群组合作的组播应用
Web提供了一个极其丰富而有价值的信息资源库。如何从Web数据源中获取并提供给用户符合需要的Web信息这是一个具有重要意义的理论和实际应用课题。Web上的数据具有半结构性、
本文通过采集大量的马铃薯领域知识,比较当前专家系统技术,详细阐述了马铃薯育种专家系统的研究与实现过程。通过采用基于COM/COM+的Windows DNA组件技术,实现了包括展示层(prese
本论文研究了架空电力线路巡检飞行机器人(FROPI)的路径规划方法。首先,提出了使用改进的快速距离转化法作为FROPI的全局路径规划方法,根据约束参量协调最短距离和最大安全需
数据库系统的发展使得我们可以为用户提供完善方便的信息和数据服务、实现数据信息的共享,但是和计算机网络的发展一样,信息的共享也为数据库系统带来了安全上的问题。随着数据
数据接收端在接收到无序数据后将其存储在接收缓存,并发送选择确认SACK给数据发送端,但在该数据传送给接收应用进程之前将其从接收缓存中删除,这种现象称为Data Reneging 。