论文部分内容阅读
情感在人类进行信息交流过程中扮演着重要的角色,人的情感状态通常是肢体语言、面部表情和语音语义的综合表现。面部表情作为最原始的交流方式,是人类传达其情感状态和意图最自然和最有力的途径。面部表情分析是情感计算的基础,是实现人机自然情感交互的关键技术。面部表情分析主要由面部表情识别和表情强度估计两个方面组成,表情识别的工作主要是识别六类基本表情,包括:愤怒、厌恶、恐惧、高兴、悲伤和惊讶;而表情强度估计则进一步区分同类表情之间在强度上的细微程度。现有的工作多集中于表情识别,对表情强度估计的研究较少。但是,仅仅分类基本表情并不能完全理解人的情绪。为了进一步理解人的情感状态和情绪强度,表情强度估计引起了广泛的关注。尽管研究者们在表情分析领域投入了大量的精力,也创造出了众多有意义的研究成果,但由于人脸表情的细微性和复杂多样性,在该领域目前仍旧存在一些难点,难以训练出鲁棒性高,泛化能力强的模型,易出现过拟合问题。特别是表情强度方面,仍然缺乏大量的有标记的数据,难以用有监督的方法训练模型。尽管基于排序的方法能够解决这一问题,但是排序方法只能估计表情的相对强度,无法估计表情的绝对强度。针对以上问题,本文主要研究基于顺序信息的表情分析算法用于联合表情识别和强度估计,并进一步提出一种融合排序与回归的卷积神经网络的表情强度估计算法。本文主要工作可总结为:(1)提出一种排序卷积神经网络(Rank-CNN)使用面部表情序列的顺序信息进行人脸表情分析,将面部表情识别和强度估计统一到一个Rank-CNN的框架中,通过强度排序来增加不同表情的类别间差异,并通过深度差分特征来减少相同表情的类内差异,从而对感兴趣的面部表情进行分类。此外,任何强度的面部表情都可以通过与中性表情的强度比较来进行分类。(2)提出一种基于融合排序与回归的卷积神经网络(JRR-CNN)的半监督框架用于解决细粒度的表情分析问题,通过构建轻量级的网络来解决上述过拟合问题,同时引入回归分支用于表情帧的绝对强度估计提高了表情强度估计的准确性。并且在多个公共人脸表情数据库上达到了最优的效果(在PAIN数据集上PCC、ICC和MAE分别为0.6551、0.5293和0.9241,CK+数据集上 PCC、ICC和MAE分别为0.7391、0.7216 和 0.1875)。实验结果表明,本文提出的方法有效地解决了目前强度标记数据不足和缺乏良好特征表示的问题,提高了性能。本文的研究结果将有助于更好地理解人类情绪状态,促进面部表情分析在相关领域的应用。