基于视觉-文本语义对齐的视觉问答模型研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:davidzn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉问答任务要求深入理解视觉和文本内容,从而获取关键信息以更好地回答问题。许多研究已经证实,改进多模态特征提取、对齐和融合以获得更准确和更丰富的全局特征,成为视觉问答任务的重要研究方向。该方向的核心是如何将提取到的图像特征及问题特征正确的对齐,从而提高视觉-文本语义对齐性。为了提升多模态特征的对齐性,本文对视觉问答的视觉-文本语义对齐算法展开研究。本文的主要工作如下:(1)目前大多数基于注意力机制的视觉问答模型只使用图像和问题作为输入,其中图像特征往往是过采样的,而文本特征往往是欠采样的,且图像区域和问题词之间的对齐并不充分。模态间信息量差距过大且对齐方式简单,会使大量无关信息被输入模型,导致视觉-文本语义对齐效果不佳。模型推理答案时,多模态特征无法形成有效对齐,将直接影响模型的推理能力。在本文中,提出了一个全新的视觉-文本语义对齐网络(Visual-Textual Semantic Alignment Network,VTSAN),从目标检测模型中获取视觉语义的标签信息,并将图像-标签-问题<I,T,Q>三元组作为输入。标签可以作为图像关键区域和问题关键词之间的中间媒介,并能极大地丰富文本特征。因此,视觉-文本语义对齐性得到了明显的改善。本文在VQAv2数据集和VQA-CPv2数据集上证明了VTSAN的有效性。通过实验结果可以看出,VTSAN的性能明显优于基线模型,特别是在计数问题上。(2)VTSAN将视觉问答视为一个答案分类任务进行处理,会存在大量的语言偏见和答案分布偏见问题。现有模型在解决偏见问题时,仅通过简单的删除偏见信息,忽略了增强视觉-文本语义对齐性,且丧失了大量有效的上下文偏见信息,导致模型没有重视于视觉内容和语言环境的学习。在(1)的基础上,本文改进了偏见信息学习策略,并针对现有模型对视觉-文本语义对齐性及上下文偏见信息的忽视,进一步提出了基于视觉-文本语义对齐减弱偏见的视觉问答模型(Visual-Textual Semantic Alignment Weakening Bias Network,VTSAWBN)。该模型通过获取更精确的标签信息作为中间媒介,并对输入的多模态特征进行信息过滤处理去除冗余信息。结合视觉-文本语义学习模块减弱偏见信息影响,并保留了重要的上下文偏见信息。从而增强了模型的视觉-文本语义对齐性,迫使模型更多的关注视觉内容和语言环境。VTSAWBN在VQA-CPv2数据集和VQAv2数据集上的性能均优于VTSAN。
其他文献
基于深度学习的目标检测模型近年来取得了巨大进步,然而检测图像中的小目标仍是目标检测领域的一大难题。由于小目标具有尺寸小、分辨率低等特点,大多数目标检测模型无法从小目标中获取足够的特征信息。本文将从不同的角度研究与改进基于深度学习的小目标检测模型,并进一步提升小目标检测模型的检测精度。本文的主要研究工作如下:(1)已有的YOLOv5目标检测模型虽然在特征增强网络中引入双向特征金字塔结构提升了检测精度
学位
近年来,新冠疫情的爆发给人类生活方式带来了巨大的变化,其中线上学习和网络销售的用户量呈现指数式的增长,随之出现的大量文本评论常常隐藏着用户的观点和情感倾向,对这些文本评论作情感分析可以帮助政府和市场更精准分析用户意向,从而做出科学有效的决策。而传统的情感分析侧重于捕捉文本中单个实体的整体情绪,而不是捕捉该实体每个方面或特征的情感极性,使得用户对实体的看法无法被深度挖掘出来。因此提出了方面级情感分析
学位
偏好补全已经被广泛应用到多个领域,如社交选择、推荐系统等。显然,在这些领域中,每个用户只有针对部分项目的排序,而让用户提供一份针对所有项目的完整的排序很多时候是不现实的。偏好补全的目标是利用所有人的不完整的偏好排序来推断出每个人的针对所有项目的一份完整的偏好排序。本文的主要工作如下:(1)针对现有的偏好补全方法由于偏好排序噪音的存在导致算法的准确性低的问题,本文提出了基于确定性的偏好补全算法。首先
学位
近年来,强化学习方法被广泛用于多智能体领域。多智能体中任务复杂,可能在任务结束时才能获得环境的反馈,造成奖励稀疏的问题。受人类好奇心的启发,单智能体中解决稀疏奖励问题的一种思路是通过内在奖励促进智能体探索新颖状态,因为多智能体联合状态空间巨大,简单的将这种思路扩展到多智能体中容易造成过度探索而不能学习任务,且这种方法利用智能体观测学习状态特征不适合部分可观测环境。针对上述问题,本文基于内在动机强化
学位
片上网络(Network-on-Chip,No C)作为新型通信架构,具备良好的可扩展性和并行性,可以满足片上日益增长的通信需求,已经成为片上多核系统事实上的标准。在片上网络的设计中,如何避免数据包路由死锁,是保障通信架构可靠性的核心问题。片上网络死锁避免领域的相关工作大都是在Dally的理论基础上发展起来的。该理论认为,如果网络的通道依赖图上没有循环依赖,网络就是无死锁的。然而,找到这样的无环图
学位
片上网络(Network-on-Chip,NoC)现在广泛应用于多核系统当中。近几年,基于NoC的深度神经网络(Deep Neural Network,DNN)加速器被提出,它将神经元计算设备通过NoC相连。该设计能够有效地减少加速器对片外存储的访问,从而降低加速器的分类延迟和功耗。然而,在基于NoC的深度神经网络加速器当中存在着大量的一对多流量,传统的解决方式是使用单播方式传递多个相同的数据包副
学位
雷达作为检测飞行目标的最主要手段,在飞行目标的研究中发挥着不可比拟的优势。由于多雷达融合系统的不断发展,传统的针对多传感器航迹关联和中断航迹关联的算法已经难以应对当前越来越复杂、越来越多样的雷达探测环境。为了更好地挖掘雷达航迹信息,利用航迹信息认知空间态势,从而为空域的监管提供有效的支持,本文基于深度学习技术,分别进行了多传感器航迹关联和中断航迹关联问题研究,主要研究内容如下:(1)提出了一种基于
学位
多变量时间序列(MTS:multivariate time series)数据是多个变量在一段时间内按照一定时间间隔记录的观测值数据。MTS聚类可以在缺乏先验知识的情况下将样本划分成有意义的簇,是一种广泛应用于金融分析、流量预测、临床诊断等领域的关键技术。MTS具有模式复杂、时间顺序、变量之间存在相关性等特性,如何利用这些特性提升MTS聚类效果具有重大理论和应用价值。受图嵌入技术在各领域的优异表现
学位
因果特征选择旨在学习类变量的马尔可夫毛毯(Markov blanket,MB)。类变量的MB意味着类变量和它的MB之间存在潜在的因果关系,以类变量的MB为条件,所有其它特征在概率上独立于该类变量,这使得因果特征选择能够识别潜在的因果特征用于特征选择,以构建健壮、可解释的预测模型,并且在理论上,类别变量的MB已经被证明是特征选择的最优特征子集。当前的因果特征选择算法主要处理没有缺失值的数据,然而缺失
学位
隧道内行驶车辆的实时位置,无论对行驶的车辆自身还是对隧道车流量分析、隧道交通事故分析以及预警等都有重要的使用价值。但因为隧道环境容易遮挡GPS信号,故无法在隧道内获取到车辆的实时位置。解决这一问题的关键在于研制一套专用的隧道车辆定位系统。整个系统运行机制是,通过车载的Tag定位标签与隧道两旁部署的Anchor基站进行数据通信,进而通过相关的定位求解算法将数据汇总运算,最终求得车载Tag的实时位置信
学位