论文部分内容阅读
在信息时代,人们希望计算机能像人类一样智能地感知对方的情感,实现有效的人机情感交互。传统意义上的通过表情、声音等单一模态信息来分析人的情感往往具有一定的局限性和不准确性,这是因为人的情感往往是多个模态信息的综合呈现。近年来,在情感识别中采用多模态分析技术成为人工智能发展的一个热点。在教育领域,准确地把握学生上课时的学习情况有利于增强课堂教学效果。而课堂中学生的情感表达往往是多种模态信息的综合,因此对其进行多模态信息分析显得尤为重要。本文选取课堂中学生上课时的面部表情和坐姿两种模态信息作为评价学生课堂情感的基本指标,设计了一种改进的Resnet,利用DS证据理论分析两种模态信息融合后的识别情况,从而对课堂中学生的情感进行实时把握。混淆矩阵扮演着桥梁的角色,对改进的Resnet和DS证据理论进行衔接。本文所做的主要工作为:1.设计了一种改进的含残差模块的网络(Resnet50v2)传统意义上用做识别分类的卷积神经网络会随着网络层数的增加而出现梯度消失或者梯度爆炸的情况,从而使得目标函数无法按照预期收敛。为了避免这种情况的发生,本文采用Resnet的基本思想即当函数H(x)近似于恒等变换时,与其使用神经网络直接拟合,不如拟合残差函数F(x)=H(x)-x更容易训练,并在此基础上进行了改进。改进方式为采用了一种“预激活”方式来使得反向传播过程中信息无阻碍传播,提高了模型的泛化能力。2.采用两种方式实现本文数据集的数据增强本文使用的原始图像数据通过手机采集,考虑到模型对数据规模的需要,采用两种方式对数据集进行了数据增强处理。第一种方式为基于数字图像处理的方法;第二种方式为基于生成对抗网络的方法。两种数据增强方式使得数据得以扩充,从而使模型具有更好的泛化性能。3.使用改进的DS证据理论来做双模态信息融合将课堂中学生面部表情和坐姿的单一模态信息识别出来的混淆矩阵进行归一化处理作为初始的概率分配函数;使用面部表情和坐姿两种模态信息作为DS证据理论的两条基本证据来进行双模态的情感识别融合分析。针对经典DS证据理论存在的不足,引入了改进的DS证据理论,使得证据分配更合理,融合结果更具有说服力。对混淆矩阵归一化操作并通过改进的DS证据理论对证据权重进行了重新的分配,在决策融合层使用Pignistic概率转换方法对最终的识别进行决策判定。4.实验结果分析将面部表情和坐姿作为前期构建的网络的基本输入,经过网络的训练得出单一模态信息的识别结果。再对Resnet的混淆矩阵加以处理并与DS证据理论结合起来做实验分析。实验结果表明,识别准确率为81%。与其它算法相比较,本文的算法性能更优。