论文部分内容阅读
人类的语音作为人与人之间沟通的重要手段和情感表达的重要媒介,已经成为人工智能的重要研究方向。在传统的语音情感识别中,如何提取最具判别性的特征已成为很多研究者关注的内容,其中一个重要的挑战就是在情感特征提取过程中把情感相关因素和情感无关因素(如环境、说话人等的差异)进行分离,使提取的情感特征具有更强的泛化性。传统的语音情感识别有一个前提:训练数据和测试数据来自同一个语料库,也就是两者具有相同的数据分布。但是,由于语音数据是从不同的设备和记录环境下获取的,它们在语言、情感的种类、标记方案等方面存在很大的差异,这时候训练数据和测试数据就具有不同的数据分布,传统的语音情感识别方法已经不能很好地解决这个问题。域适应,作为一种特殊的迁移学习方法,被证明可以有效地解决不同域之间数据分布存在差异的问题。本文针对传统的语音情感识别,提出了可鉴别语音情感特征学习方法;针对跨库的语音情感识别,分别提出了基于先验共享的半监督域适应方法,和基于标签监督和特征分解的无监督域适应方法。具体研究内容如下:1)提出可鉴别语音情感特征学习方法。主要目的是对情感相关因素和情感无关因素进行分离,从而提取情感相关的特征。该方法包括四个步骤。首先,对语音数据进行预处理,得到语谱特征。然后进行无监督特征学习,从语谱特征中提取若干个小块进行无监督预训练,得到核(权重和偏置),利用不同尺寸的小块就能训练不同尺寸的核,然后对整个输入语谱特征利用核进行卷积、池化,并堆叠不同尺寸的池化特征,得到一个初步的粗糙特征表示。接着进行半监督特征学习,将粗糙特征作为输入并映射成两部分,一部分和情感相关,另一部分和情感无关。总的损失函数由四部分组成:重构损失函数、正交损失函数、判别损失函数和认证损失函数。通过正交损失函数,将情感相关的特征和情感无关的特征进行初步的划分。接下来对情感相关的特征进行一些约束。通过判别损失函数,增大不同种类情感的情感相关特征之间的距离;通过认证损失函数,减小同一种类情感的情感特征之间的距离。最后,将半监督特征学习得到的情感相关特征作为一段音频的最终特征表示,结合相应的情感标签,进行分类器的训练。实验在INTERSPEECH 2009情感挑战赛的五类任务上进行评估,利用该方法学习得到的情感相关特征的识别率明显高于在同等条件下使用传统声学特征的识别率。2)提出基于先验共享的语音情感迁移学习方法。主要目的是希望通过共享先验,使得目标域中有标签样本比较少的那些类,能够从源域中相关的类获得一些有用的信息,从而改善目标域的分类性能。提出的模型是一个两层的神经网络模型,第一层是特征提取层,第二层是softmax分类器。第二层参数其实是各个类的分类器参数,在每类都有充足有标签样本的情况下,各个类的分类器参数一般都是独立的,但在半监督域适应下,目标域中的每个类只有很少的有标签样本,只用这些有标签样本不足以训练一个性能出色的分类器,因此本方法对相关的类的分类器参数加上一个共同的先验(也就是相关类的分类器权重向量从同一个分布中产生)。该方法包括三个步骤。首先,对语音数据预处理,得到一个384维特征。然后,利用源域和目标域的无标签数据进行预训练共享隐藏层自动编码器,用于初始化模型的第一层参数。最后,利用源域和目标域的有标签数据进行训练整个两层模型。实验中源域采用ABC或者Emo-DB,目标域采用FAU AEC,在INTERSPEECH 2009情感挑战赛的两类任务上进行评估。实验结果表明,在目标域有标签样本比较少的情况下,提出的基于先验共享方法的召回率要高于没有先验共享的方法,并且高于传统的机器学习方法。3)提出基于标签监督和特征分解的语音情感迁移学习方法。主要目的是同时学习具有域不变性和情感判别性的特征,来弥补域之间的差异,并且学到任务相关的特征。该方法所提出的模型是一个前向神经网络模型,包括三个部分:特征提取,情感标签预测,域标签预测。首先将输入数据解开成两部分:情感相关特征和情感无关特征,然后将情感相关特征进行层次非线性转换得到高层情感特征,进一步采用高层特征进行情感标签和域标签的预测。实验中源域采用ABC或者Emo-DB,目标域采用FAU AEC,在INTERSPEECH2009情感挑战赛的两类任务上进行评估。实验结果表明,该方法的召回率要明显高于传统的机器学习方法和其他一些域适应方法。