基于判别特征增强的多模态人脸表情识别方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:guxingyiren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人脸表情识别(FER)技术旨在通过计算机视觉等方法,对人脸进行自动分析,进而快速且精准地推测出人们的内心情感,在人机交互、安全监控、行为分析等领域具有广泛应用。当前的FER研究大多基于单一模态彩色图像数据,其核心为通过利用关键点标签对表情区域进行定位和特征提取,以增强表情判别特征。然而,这种方法需要大量人工参与,且无法自适应定位判别区域,难以应用于实际场景。近年来,人们也利用与其互补的深度信息来估计单视角表情的多视角投影,以此放大微弱的面部肌肉运动增强特征。然而,多视角几何增强方法的本质是将高维信号在多个低维空间上进行解耦表示,无法达到信息增强的目的,且引入额外的特征干扰,降低了学习效率。同时,这些问题也存在于多模态表情视频中,降低了运动特征的相关性,引入了大量的决策级不确定因素。因此,本文针对多模态FER技术中的判别区域特征增强等关键问题进行研究,并提出以下创新方法。第一,基于表情数据“类间距离小,类内距离大”的分布特性,本文对FER任务进行细粒度分类建模,并提出一种基于面部注意力机制的2D表情判别区域定位方法,用以自适应定位2D表情判别区域,增强判别区域的特征表达。在提出的方法中,本文结合通道注意力机制和空间注意力机制来增强表情特征图,并生成注意力图,并基于此计算表情显著性区域,以增强局部判别特征,提高识别准确率。提出的方法不依赖任何人脸关键点标签,可以在弱监督的情况下完成表情判别区域的定位。第二,针对3D深度数据特征表达微弱问题,本文提出一种基于全局最大熵的3D人脸表情增强方法,来增强深度数据的几何判别特征。提出的方法以最大化增强后图像的信息熵为目标函数,包含三个步骤,分别为:1)深度选择,2)基于深度失真约束的全局最优最大熵映射以及3)图收集。本文将以上优化求解过程建模为有向无环图中的最大权重路径问题,并设计动态规划进行高效求解。第三,基于判别区域定位与最大熵深度数据增强,本文提出一种2D+3D多模态表情识别方法。该方法包含三个模块:1)2D/3D面部注意力模块,2)多模态判别区域增强模块以及3)融合预测模块。方法首先对3D深度数据进行特征增强,提升深度数据的特征表达,然后利用拓展的面部注意力机制定位多模态判别区域,并提取局部判别特征。最后,我们对局部特征和全局特征进行多尺度融合,得到紧凑的多模态多尺度判别特征,并用于最终的表情分类。第四,对于多模态视频(即4D)表情数据,本文提出一种基于运动特征恢复的光流估计方法用于高效建模序列间的运动相关性,并基于此设计了基于光流估计的多模态表情识别算法。提出的光流估计算法受字典学习技术的启发,将历史运动特征作为原子,通过自适应学习重构系数对当前帧中的无效运动特征进行估计,进而降低运动光流误差。相对于传统算子,提出的4DFER方法可以有效提取表情序列中的时空判别特征,并超越现有技术性能指标。本文围绕多模态人脸表情识别技术中判别特征增强等关键问题进行了深入研究。表情基准库上的大量实验表示,提出的算法可以超越现有多模态人脸表情识别方法,取得SOTA识别结果,验证了提出方法的有效性。同时,大量可视化实验验证了算法的语义可解释性。此外,在非人脸数据集上的实验结果进一步证明了提出的方法具有良好的泛化性和普适性。
其他文献
利用GIMMS-NDVI3g、MOD13A2、气温、降水、辐射和DMSP夜间灯光数据集分析1992—2020年中国归一化植被指数(NDVI)时空变化特征,并借助随机森林算法模型在栅格尺度上确定其变化主导因素.结果显示:1992—2020年,中国NDVI均值范围为0~0.90,华北平原、长江中下游平原、东北平原、四川盆地、东南丘陵和云贵高原地区为高值区,均值约为0.60,西北和青藏高原地区较低,约为
青藏高原巨大隆起不仅塑造了欧亚大陆的气候格局,也深远地影响了高原的地理生态格局。青藏高原巨大隆起而产生的山体效应不仅可对近地表温度产生显著影响,其对近地表层垂直大气亦可产生显著作用,然而目前仍缺乏这一方面的研究。因此,本研究基于MODIS大气廓线数据产品,以昼夜温差为切入点,分析了青藏高原不同季节、不同气压面(500~200hPa)的昼夜温差差异。结果表明:(1)青藏高原内部不同季节、不同气压面高
雅鲁藏布江(雅江)与尼洋河交汇段的辫状河道形态及变化主要受尼洋河入汇、河谷边界条件及滨河植被的影响,时空变化的差异性和复杂性值得研究。利用1986—2021年遥感数据提取河道-沙洲-植被主要形态参数(主河道迁移率、弯曲率、面积等)分析辫状河道形态的复杂特征与演变过程。结果表明:主河道迁移率最大为483 m/a,弯曲率减小3.43%,植被面积逐年增加到8.05 km2。米林—派镇段辫状河道受边界条件
军事需求文档产生于军事项目的开展过程中,用于阐述军事项目本身的目的、要实现的功能等。对军事需求文档进行术语识别和一致性检验,可以自动抽取出文档中的关键信息要素,帮助有关工作人员快速定位军事术语,也有利于构建军事知识图谱,从而更好地服务军事工作。其中,一致性检验的重点在于对识别出的术语进行词义消歧。本文从以下几个方面展开。首先,对术语识别和词义消歧的国内外研究现状进行分析,对一些典型的术语识别和词义
河型转化是河流演化由量变到质变的综合反映,具有科学研究和服务生产的双重价值。以嫩江干流上游(以下简称嫩江上游)为研究区,利用遥感影像和地貌、气候等资料描绘了1985—2020年嫩江上游的河流形态特征,分析了河流类型、河型转化控制因素及河型转化模式。研究表明:(1)嫩江上游整体为稳定的河流且稳定性先增后减,顺河流方向发育三种河型——低坡度高弯度稳定的曲流河(河段Ⅰ)、高坡度高弯度稳定的曲流河(河段Ⅱ
青藏高原是气候变化的敏感区,其积雪在区域水文循环和气候系统中具有重要作用。本文利用1980—2020年逐日无云积雪覆盖遥感数据,分析了该地区近40年的积雪面积、积雪覆盖日数的分布特征和变化趋势。结果表明:青藏高原地区积雪分布具有明显的空间分异和垂直地带性分布特征,阿姆河流域、印度河流域、塔里木盆地、恒河流域、怒江流域和雅鲁藏布江流域的高海拔山区是积雪广泛分布的地区。在水文年内,高原地区积雪覆盖率呈
土地利用和土地覆盖变化(Land Use and Land Cover Chang, LUCC)通过影响局地陆面过程及陆气相互作用进而影响局地天气和气候。为探究LUCC产品对陆气相互作用的影响,本文采用了三套LUCC产品,包括USGS、 Landsat和MODIS,模拟研究不同LUCC产品对华东地区土壤和近地面温度、湿度的影响。结果表明,不同LUCC产品的土地利用类型差异主要在城市、农田和以草地、
与传统的正交多址接入(Orthogonal Multiple Access,OMA)不同,非正交多址接入(Non-orthogonal Multiple Access,NOMA)从功率分配的角度,重新定义了资源分配的方式。通过将接入系统的多个用户在功率域上进行非正交叠加、人为引入干扰、适度提高接收机的复杂度为代价,可以使有限的频率资源高效地利用,从而满足下一代无线通信系统对高速率和海量连接的需求。
解析文物保护单位的时空分布特征,对于保护、挖掘和传承民族优秀文化具有重要价值。本文以甘肃省689处文物保护单位为研究对象,借助数理统计和GIS空间分析方法探讨其时空分布特征及其影响因素。结果表明:①六类文物保护单位在7个历史时期的占比不尽相同,古遗址、古墓葬、石窟寺及石刻、古建筑、近现代重要史迹及代表性建筑的分布具有很强的时代性。②文物保护单位的空间分布整体呈“东南高、西北低”特征,且古遗址、古墓
在现如今的大数据分析信息时代,表情识别技术在人机交互与情感分析等领域中具有十分普遍的运用,是计算机视觉应用领域里的一个非常关键的研究领域。表情识别的实际应用具有相当大的社会意义,所以表情识别的深入研究对实际应用的推广与普及具有十分重大的意义。头部姿态变化下人脸表情识别在表情识别方向里,是一项非常具有挑战性的计算机视觉任务,因为一方面,不同表情难于分类,另一方面头部姿态的变化会导致相同表情类内的差异