基于深度神经网络模型的非特定域中文智能问答系统研究与实现

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:yanglsm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能问答系统是一种新型的信息服务系统,它综合运用了信息检索、自然语言处理、人工智能、语义分析等技术,可以对用户问题做出智能准确的响应。以领域划分可以分为特定领域和开放领域问答系统,按处理的问题类型可分为事实型问答和非事实型问答。本文设计并实现了开放域中文智能问答系统,使用不同策略处理不同类型的问题,重点研究针对非事实型问题的模板匹配和深度序列映射模型及针对事实型问题的处理流程。由于面向领域是开放域,设计的模板不可能覆盖到所有的非事实型问题,故本文引入基于深度神经网络的序列映射模型,使用大量问答对语料训练模型,可以学习到问题序列与答案序列之间的映射关系,相当于自主学习“模板”,一定程度上解决了模板覆盖不足的问题。本文所实现的智能问答系统包括针对事实型问题的深度问答流程,如问题类型判断、支持证据收集与检索、支持证据评分、候选答案抽取与评分步骤。本文涉及到的技术包括文本预处理过程、AIML模板匹配、Lucene全文检索、循环神经网络及其变形长短期记忆模型、基于循环神经网络的序列映射模型。本文的主要工作和成果如下:(1)构建基于循环神经网络的序列映射模型对问答对建模,将原始输入从稀疏词袋向量改为稠密词向量,设计实验探究影响实验结果的关键参数,并与全文检索模型相比较。实验结果表明模型生成的答案比基于Lucene检索出的答案合理性高出14%,说明序列映射模型的确可以学习到训练语料中某些隐藏的规则,可以对语料库中未登陆问题产生合理响应,验证了该方法的有效性。(2)分析比较目前存在的支持证据和候选答案评分组件,发现基于平均词距模型的候选答案评分方法能够利用句子的结构信息,基于词频的答案评分方法适用于预期答案在支持证据中多次出现但缺乏统一表述模式的情况。故本文将这两种方法加权结合,综合考虑结构、词频两方面对答案评分组件的影响,实验表明该方法具有更高的准确率和MRR值。(3)综合以上研究成果,设计系统框架,最终实现中文智能问答原型系统。
其他文献
加快广西北部湾经济区开放开发,是当前广西发展的重大战略,而人才资源是保证战略目标得以实现的基础。充分发挥高校统战工作优势,为北部湾人才培养服务。
本文对供应链金融信用风险评价进行了系统研究。创新之处在于将主成分分析与自适应权重赋值方式相结合,构建供应链金融信用风险评价模型,使学界对于供应链金融信用风险评价的
本报讯(记者樊霞)1月16日,深圳联合飞机科技有限公司、河南投资集团有限公司、中信重工机械股份有限公司、上海朴弘投资有限公司在郑州签订合作协议,共同启动洛阳无人机产业化项
报纸
目的探讨吻合器痔上黏膜环切术在重度痔中的临床应用,比较单双荷包缝合技术对吻合器痔上黏膜环切术临床疗效的影响。方法选取2013年11至2014年11在本院行吻合器痔上黏膜环切