【摘 要】
:
近几年随着移动互联网和大数据时代的快速发展,非结构化的网页和各垂直领域的文档急剧积累,基于非结构化文本的自动问答作为信息检索的高级形式,通过解析用户的真实意图,从检索到的文档中抽取简洁准确的答案,近几年逐渐成为研究热点。然而,当前大多公开的研究工作还存在诸多问题:1)问答场景下问句和文档长度严重失衡,信息检索模块中缺乏细粒度语义层面的相似度匹配,难以满足精准化检索需求;2)中文场景下,主流机器阅读
论文部分内容阅读
近几年随着移动互联网和大数据时代的快速发展,非结构化的网页和各垂直领域的文档急剧积累,基于非结构化文本的自动问答作为信息检索的高级形式,通过解析用户的真实意图,从检索到的文档中抽取简洁准确的答案,近几年逐渐成为研究热点。然而,当前大多公开的研究工作还存在诸多问题:1)问答场景下问句和文档长度严重失衡,信息检索模块中缺乏细粒度语义层面的相似度匹配,难以满足精准化检索需求;2)中文场景下,主流机器阅读理解模型未得到充分验证,性能存在提升空间,3)当前大规模非结构化文本自动问答技术不够成熟,针对某一垂直领域的应用平台相对较少。本文围绕非结构化文本自动问答系统中的文档信息检索和答案抽取的关键技术,进行算法优化和系统实现。主要研究工作包括:(1)提出了一种基于层叠注意力机制的语义相似度匹配模型(Deep-HAN-Matching),解决了问答场景下检索和文档长度严重失衡导致语义相似度匹配困难的问题,从词维度和句子维度利用注意力机制逐层抽象、抽取特征,在WikiQA公开数据集上相比主流基线模型性能提升明显;(2)提出了一种利用门限卷积神经网络和自注意力机制改进BiDAF的机器阅读理解模型(BiDAF-GCN-SelfAtt),缓解了在长文本下BiDAF上下文编码和交互匹配特征融合困难的问题,在公开中文数据集DuReader上ROUGE-L和BLEU-4指标相对于基线模型分别提升2.8%和5.2%;(3)在临床医学领域,融合本文提出的算法,实现了一个基于非结构化文本的自动问答系统,验证了本文提出的两种模型在临床医学标注数据集上表现出良好的适用性,同时系统在2018年临床医学执业医师考试测试集上,Topl准确率相比于基线系统提升明显。
其他文献
为了有效提高煤矿供电系统的电能质量,提出了一种适用于静止无功发生器(VSG)的基于内模原理的滑模电流解耦控制算法。采用内模控制来实现对理想VSG解耦模型的控制,保证系统动
滩海平台工作水深较浅,约1~3m,平台桩基为群桩,形状不规则,对其难以进行定量检测。首次采用三维声呐系统对冀东油田滩海平台的水下工程进行检测。检测结果表明,冀东油田1号构
研究一种用于高空作业平台的轮距可变的转向机构,以转向机构的底角和腰长为设计变量。通过对传统车辆转向机构边界条件的修改,找到适合优化设计轮距可变转向机构的边界条件,最后
2007版欧洲高血压学会(ESH)/欧洲心脏病学会(ESC)高血压治疗指南已于2007年6月15日至19日在意大利米兰召开的第17届ESH年会上公布。该指南在2003版ESH/ESC高血压治疗指南基础上进行
企业社会责任会计信息披露是企业履行社会责任的一部分,其披露体系包括披露目标、披露原则、披露内容和披露模式。构建我国的企业社会责任会计信息披露体系需要政府、企业和
探讨压控振荡器的设计参数和工作原理,提出电路的主要设计方向,计算各种性能参数。根据电路低功耗设计要求,将各个功能模块进行改良,确定整体电路。最后分析子模块电路的结构
污水处理厂在进行污水处理时所产生的污泥具有产量大、含水率高、气味特殊等特点,污泥脱水是在污水处理过程中减小污泥体积的核心技术。文章介绍了常用的污泥脱水设备及其选
本文基于福州、厦门两地农民工问卷调查数据,运用二元Logistic回归分析,从个体特征、就业状况和工作满意度三个方面对农民工是否参加社会保险及其影响因素进行实证分析.研究
目的 探讨超声引导下95%医用无水酒精硬化治疗卵巢巧克力囊肿的效果。方法 对28例卵巢巧克力囊肿患者,采取超声引导下抽出囊肿内液后注入95%医用无水酒精硬化介入治疗。结果
宁波象山港大桥建成通车后,必将带来象山县交通状况和交通管理的深刻变革。要发挥综合机构功能,优化道路交通组织,改善静态交通现状,提高科技管理水平,注重交通文明养成,不断