融合多注意力机制的图像语义描述算法研究

来源 :西安工程大学 | 被引量 : 0次 | 上传用户:rxw257
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像语义描述任务关联到机器学习的两大研究方向:视觉方向和机器翻译方向,近年来一直是备受关注的研究任务。伴随着深度学习的快速发展,越来越多的科研人员开始重视图像语义描述任务,逐渐成为研究热点。给定一幅图像,根据图像内容算法可以自动生成描述图像的自然语言。该任务在图文互搜、图像辅助理解等领域具有较强的实际应用价值。近年来,对于如何高效使用图像特征以生成更准确的语义描述成为图像语义描述任务的主要研究方向。本文在当前图像语义描述方法的基础上,在编码器部分引入空间注意力,通道注意力以及自注意力,在解码器部分引入自适应注意力,分别从编码器(encoder)和解码器(decoder)进行了改进研究。首先,本文在现有的图像语义描述编码器中引入空间注意力和通道注意力,提出了融合空间注意力和通道注意力的图像语义描述模型。在生成当前单词时通道注意力机制用来确定图像中的目标对象。不同的通道有不同的激活区域,这意味着在预测一个单词时,只有部分通道会被激活。空间注意力机制用来确定图像目标的位置信息。本文引入了卷积空间注意力机制,模型保留了图像的空间结构,同时,通过更大的感受野来精确地确定每一步应该关注的区域,使得模型关注主要信息,忽略次要信息。本节融合空间注意力机制和通道注意力机制,通过两种不同的维度采用注意力机制,生成具有注意力机制权重的图像特征,进而提高编码器提取特征能力,通过MSCOCO数据集的实验数据对比,融合空间注意力机制和通道注意力机制模型在BLEU,METOR,ROUGE和CIDEr评价指标上均有较大幅度的提升。其次,本文在编码器中引入位置自注意力和通道自注意力,提出了融合位置自注意力和通道自注意力的图像语义描述模型。图像语义描述模型的图像特征通过经典的深度卷积神经网络提取而来,存在着全局特征利用不充分。本节引入自注意力机制自适应的整合局部特征和全局依赖。其中,位置自注意力利用位置的加权求和的方式来聚集每一个位置的特征;通道自注意力使用通道特征选择性的突出某个特征图;融合位置自注意力机制和通道自注意力机制,生成具有自注意力机制权重的图像特征,提高模型的表达能力。通过MSCOCO数据集的实验数据对比,融合位置自注意力和通道自注意力的图像语义描述模型的实验效果相对于经典的算法有显著的提高。最后,本文在decoder部分中融合自适应注意力。解码器在图像语义描述模型中扮演着至关重要的作用,现有的解码器大多数采用长短时记忆网络,由于LSTM网络存在长期记忆存储能力有限的问题。为了更好的解决记忆存储有限的问题,本节引入了自适应注意力机制,其中,自适应注意力机制帮助模型在生成非视觉单词时更多的关注文本信息,在生成视觉单词时更多的关注图像信息,从而提升图像语义描述模型的准确性。通过MSCOCO数据集的实验数据对比,自适应注意力的图像语义描述模型的实验效果相对于传统的算法有很大的提高。图32幅,表7个,参考文献70篇。
其他文献
在纺织领域,织物疵点检测结果的准确率是评判织物质量的关键因素,对纺织企业的效益影响颇大,实际生产过程中,由于机器设备故障、周围环境以及人为因素等影响,不可避免的会出现污渍、断纱、破损等不同类型的疵点。计算机图像识别技术的快速发展,使得传统的人工检测织物疵点的方式逐渐被基于机器视觉技术的织物疵点检测方法取代,在企业中有较好的应用需求。因此,本文基于机器视觉和图像处理技术,对织物的疵点检测理论和算法进
可穿戴电子设备在人体健康实时监测领域发挥着巨大的作用,目前的传感材料均具有较为完整的微观导电网络结构,导致柔性应力传感器在检测微小应力时普遍灵敏度较低。为了解决上述问题,本研究提出碳质球复合金纳米结构的制备思路,通过传感材料微结构的调控提高传感材料受应力后的微位移变形,实现柔性应力传感器的高灵敏检测,并采用有限元分析,验证传感材料微结构与变形量之间的关系,具体开展以下研究工作:本文拟使用碳质球充当
高档数控机床作为现代制造业的基石,高性能电主轴是数控机床的核心动力部件,角接触球轴承是电主轴的重要支撑部件。在电主轴装配时对轴承施加一定的预紧力,能够保障轴承动态性能及多工况加工的适应能力。考虑温升影响,根据轴承动态特性实施动态预紧优化,可提升轴承综合性能,本文构建了考虑温升的轴承动力学模型,给出了轴承动态预紧优化方法。本文主要研究内容如下:(1)基于Hertz接触理论、“外轨道控制”理论和拟静力
热轧带钢在现代生活中地应用非常广泛,其中汽车车身就是热轧带钢的主要需求之一,车身材料的性能是否达标决定汽车驾驶是否存在隐患。热轧带钢的不同机械性能主要通过带钢的冷却来控制,所以带钢冷却速率、卷曲温度的精度的控制就变得十分重要。本文选取C-Si-Mn-Cr-Nb带钢为研究对象,查找出冷却后带钢边裂以及抗拉强度提升问题的最佳解决方案。从方案中确定带钢边部冷却时须生成的组织,以及生成对应组织的冷却速率。
传统能源的大量消耗和惊人的污染速度,对环境造成了不可逆转的破坏。太阳能作为清洁环保且免费的可再生能源获得了大家的关注。抛物碟式太阳能系统因其聚光比高及光热转换效率高的优势被广泛应用于太阳能热发电技术中。吸热器作为光热转化的关键设备,明晰其热流密度分布以及影响因素,提出改善热流分布均匀化的方法,对保障吸热器运行安全可靠性具有重大意义。本文以碟式太阳能热发电系统作为研究对象,通过获取吸热器腔体内部热流
小型快速锻造液压机凭借响应速度快、机架稳定性好、锻造精度高等方面优势成为现阶段锻造行业发展的一种趋势。本文对50t锻造工况下的试验机主要做了相关机架的设计、稳定性能和优化的研究,并针对泵直接传动式快锻液压机液压系统进行相关内容的设计。研究内容主要由以下几个方面进行:(1)依据50t锻造力下的锻造工况及理论分析,优选出了50t工况下的液压机初步机身结构设计方案,并对其结构和工作缸、回程缸、拉杆柱套、
土地利用一直是污泥资源化的一个重要方向,然而污泥中的重金属却严重限制着其土地利用,利用生物方法可以在低成本下有效浸提污泥重金属,但其相对化学试剂法浸提时间较长,本实验以课题组前期研究成果为基础,以污泥水解酸化为主导浸提方法,结合微波化学的辅助作用以期提高水解酸化浸提重金属效率,主要研究结果如下:1.通过驯化接种污泥得到p H值稳定在3.5左右的接种污泥,驯化成功的接种污泥沉降性能改善、p H值稳定
针对国家电网公司提出的加快建设电力监控系统网络安全管理平台的相关标准和要求,本文需要扩展实现泛在电力物联网中两类重要的嵌入式终端的网络安全功能,以达到实时监控、闭环管理的目的。为了达到设计方案的合理性、可行性,以及项目研究的目标,首先对所研究的微机远动终端(Remote Terminal Unit,RTU)和电能量远方终端(energy RTU,e RTU)的硬件平台、软件体系结构及工作原理进行了
本文为某一款微型纯电动汽车设计出一种满足国标要求的动力电池包,使用3D建模设计了其最初结构,并借助幂耐新能源科技(上海)有限公司的冲压设备进行打样试做。根据最新国家标准(力学强度试验)中的多种工况进行有限元仿真模拟,分析了动力电池包的静、动态结构性能和充放电散热时单体电池温度变化的影响,并对几个部件进行了优化,具体完成了以下几个方面的研究:(1)按照主机厂提供的性能参数,合理选择了单体电池,使用三
载体是MBBR工艺的重要组成部分,载体品质的好坏直接影响到MBBR系统处理效果的好坏。近期研究发现好氧柔性悬浮生物载体Porous Bio-gel(PBG)特殊的物理特性非常符合MBBR工艺的基本要求。但目前对于PBG生物载体的研究主要集中在处理工艺的优化上,缺少对载体本身性能的深入探究与分析,难以为PBG生物载体推广应用提供有效的参考依据。因此本论文将通过研究MBBR工艺中不同条件下悬浮污泥浓度