基于深度学习的多模态智能问答技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:limengwy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习带动了自然语言处理(NLP)和计算机视觉(CV)的快速发展。在NLP领域中,一个非常流行的主题是智能问答,它要求机器自动回答自然语言形式的问题。除了传统的文本智能问答外,有一种提供了多模态数据(例如文字和图像)的变体,即多模态智能问答任务。这项任务对如何组合多模态数据和进行相应的推理策略提出了新的挑战。本文就研究多模态智能问答的一个分支,被称为多模态机器阅读理解(MMMC)。MMMC是机器阅读理解(MRC)的多模态扩展,MRC要求阅读和理解一篇文章并根据文章的内容回答问题,而在MMMC中,阅读背景变成了多模态形式,比如文本中带有对应的图片,问题也不仅限于文本,还可以由图像组成。MMMC存在各种类型的问题,例如完形填空,多项选择或排序。最近的一个MMMC数据集是RecipeQA,并且该数据集已经发布了四个不同的MMMC任务。在本文中,我们对MMMC任务进行了深入研究,并提出了可以解决多种任务样式的新颖的深度学习模型。我们针对RecipeQA的所有四个不同问题形式的子任务进行了实验,并获得了最先进的结果。由于之前的MRC工作并未引入时序信息,我们提出一种面向时序的深度模型,在单模态的MRC中处理时间顺序信息。我们通过对RecipeQA的文本填空任务进行重构,扩增为动作排序任务,要求根据背景文本来对一系列动作短语进行排序。我们提出了一个OrdMatch模型,该模型具有两个主要模块:层级匹配模块和基于注意力的排序正则化项。实验结果表明我们的模型能够有效学习MRC中的时序信息并帮助文本匹配。此外,我们针对MMMC,特别是RecipeQA数据集的不同任务形式进行了探讨。经调研,我们发现尚未有先进模型针对RecipeQA的任务形式进行探索。我们主要分两种任务形式进行研究,一种是多模态背景的机器阅读理解,即背景文本是多模态形式,一种是多模态问题的机器阅读理解,即问题和背景呈现不同模态。在多模式背景的问题中,我们基于神经张量网络提出一个多模态神经张量网络(MM-NTN),计算<文档,图像,答案>的三元组相关性。与先前提到的OrdMatch模型相比,该模型取得了更好的结果。针对问题为多模态,即文本背景和视觉问题(答案)的任务,我们提出了一种多级多模态Transformer(MLMM-Trans)架构,该架构建立在多头自注意力机制的基础上,它可以在步骤级别和文档-图像级别上分别提取特征。它的关键贡献是,提供了一个用于多个句子和多个图像的多模态融合的通用架构。该模在多个任务上均获得了最先进的成果,显示了其在MMMC上的有效性。
其他文献
以J2孔为例,论述了井下电视在钻探工程和修井工作中的应用效果.
普朗斑岩铜矿床是中国西南"三江"地区新发现的具超大规模的印支期斑岩铜矿床,其成矿岩体的斑岩具有高的Sr含量(289&#215;10-6~1200&#215;10-6,平均值为820&#215;10-6)、Sr/Y(23~92)和
柏翠思酒业有限公司是一家专业进口和销售高档葡萄酒的机构,一直专注于为中国消费者引进来自世界各地的一线精品葡萄酒,凭借其对葡萄酒品质的极致追求及市场前景的独到眼光,引导
我国人造金刚石自1963年研制成功,其发展历程中第一个高潮是在20世纪70年代由地质系统在发展金刚石钻进的推动下掀起的.目前我国人造金刚石工业得到了高速发展,是世界上人造
伴随着新课程标准的实施,历史学科对学生能力考察的要求越来越高。在历史考试中,以史料形式呈现的题目越来越多。这就需要学生有较强的阅读和分析材料的能力,还需要不断提升
我们必须想着我们下一步怎么样能够拓展和发展.这不仅仅是我们自己的需要.也是投资人不断地给我们提出的课题。