基于深度学习和迁移学习的语音情感识别方法研究

来源 :江苏大学 | 被引量 : 11次 | 上传用户：sonim0

【摘要】

：

人类的语音作为人与人之间沟通的重要手段和情感表达的重要媒介,已经成为人工智能的重要研究方向。在传统的语音情感识别中,如何提取最具判别性的特征已成为很多研究者关注的

【作者】

：

薛文韬

【机构】

：

江苏大学

【出处】

：

江苏大学

【发表日期】

：

2016年01期

【关键词】

：

语音情感识别特征学习深度学习迁移学习域适应

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

人类的语音作为人与人之间沟通的重要手段和情感表达的重要媒介,已经成为人工智能的重要研究方向。在传统的语音情感识别中,如何提取最具判别性的特征已成为很多研究者关注的内容,其中一个重要的挑战就是在情感特征提取过程中把情感相关因素和情感无关因素(如环境、说话人等的差异)进行分离,使提取的情感特征具有更强的泛化性。传统的语音情感识别有一个前提:训练数据和测试数据来自同一个语料库,也就是两者具有相同的数据分布。但是,由于语音数据是从不同的设备和记录环境下获取的,它们在语言、情感的种类、标记方案等方面存在很大的差异,这时候训练数据和测试数据就具有不同的数据分布,传统的语音情感识别方法已经不能很好地解决这个问题。域适应,作为一种特殊的迁移学习方法,被证明可以有效地解决不同域之间数据分布存在差异的问题。本文针对传统的语音情感识别,提出了可鉴别语音情感特征学习方法;针对跨库的语音情感识别,分别提出了基于先验共享的半监督域适应方法,和基于标签监督和特征分解的无监督域适应方法。具体研究内容如下:1)提出可鉴别语音情感特征学习方法。主要目的是对情感相关因素和情感无关因素进行分离,从而提取情感相关的特征。该方法包括四个步骤。首先,对语音数据进行预处理,得到语谱特征。然后进行无监督特征学习,从语谱特征中提取若干个小块进行无监督预训练,得到核(权重和偏置),利用不同尺寸的小块就能训练不同尺寸的核,然后对整个输入语谱特征利用核进行卷积、池化,并堆叠不同尺寸的池化特征,得到一个初步的粗糙特征表示。接着进行半监督特征学习,将粗糙特征作为输入并映射成两部分,一部分和情感相关,另一部分和情感无关。总的损失函数由四部分组成:重构损失函数、正交损失函数、判别损失函数和认证损失函数。通过正交损失函数,将情感相关的特征和情感无关的特征进行初步的划分。接下来对情感相关的特征进行一些约束。通过判别损失函数,增大不同种类情感的情感相关特征之间的距离;通过认证损失函数,减小同一种类情感的情感特征之间的距离。最后,将半监督特征学习得到的情感相关特征作为一段音频的最终特征表示,结合相应的情感标签,进行分类器的训练。实验在INTERSPEECH 2009情感挑战赛的五类任务上进行评估,利用该方法学习得到的情感相关特征的识别率明显高于在同等条件下使用传统声学特征的识别率。2)提出基于先验共享的语音情感迁移学习方法。主要目的是希望通过共享先验,使得目标域中有标签样本比较少的那些类,能够从源域中相关的类获得一些有用的信息,从而改善目标域的分类性能。提出的模型是一个两层的神经网络模型,第一层是特征提取层,第二层是softmax分类器。第二层参数其实是各个类的分类器参数,在每类都有充足有标签样本的情况下,各个类的分类器参数一般都是独立的,但在半监督域适应下,目标域中的每个类只有很少的有标签样本,只用这些有标签样本不足以训练一个性能出色的分类器,因此本方法对相关的类的分类器参数加上一个共同的先验(也就是相关类的分类器权重向量从同一个分布中产生)。该方法包括三个步骤。首先,对语音数据预处理,得到一个384维特征。然后,利用源域和目标域的无标签数据进行预训练共享隐藏层自动编码器,用于初始化模型的第一层参数。最后,利用源域和目标域的有标签数据进行训练整个两层模型。实验中源域采用ABC或者Emo-DB,目标域采用FAU AEC,在INTERSPEECH 2009情感挑战赛的两类任务上进行评估。实验结果表明,在目标域有标签样本比较少的情况下,提出的基于先验共享方法的召回率要高于没有先验共享的方法,并且高于传统的机器学习方法。3)提出基于标签监督和特征分解的语音情感迁移学习方法。主要目的是同时学习具有域不变性和情感判别性的特征,来弥补域之间的差异,并且学到任务相关的特征。该方法所提出的模型是一个前向神经网络模型,包括三个部分:特征提取,情感标签预测,域标签预测。首先将输入数据解开成两部分:情感相关特征和情感无关特征,然后将情感相关特征进行层次非线性转换得到高层情感特征,进一步采用高层特征进行情感标签和域标签的预测。实验中源域采用ABC或者Emo-DB,目标域采用FAU AEC,在INTERSPEECH2009情感挑战赛的两类任务上进行评估。实验结果表明,该方法的召回率要明显高于传统的机器学习方法和其他一些域适应方法。

其他文献

图像识别技术在换流站监控系统中的应用研究

本文对安全帽识别系统中的人体定位与安全帽定位进行了初步研究。首先,本文使用梯度直方图特征,采用支持向量机方法定位人体；其次,本文采用Haar-like特征,基于AdaBoost分类器

学位

梯度直方图Haar-like特征支持向量机AdaBoost算法人体识别安全帽识别

基于格网的等值线生成和裁减算法

等值线图是一种应用十分广泛的图形,它将三维信息显示于二维平面,可用于从总体上把握对象的特征。本文主要探讨了等值线图的制作过程。首先,介绍了数字高程模型的数据采集和

学位

等值线格网裁剪光滑标注

基于ASP.NET的毕业设计管理系统的设计与实现

随着计算机网络技术的迅猛发展,网络应用范围不断扩大。人们迫切要求利用这些技术开发各种管理系统,进行远程管理,远程教育,以提高工作效率,提高教育质量,激发学生的学习兴趣

学位

基于车道线边缘及分布特征的车道线识别算法研究与实现

随着社会经济、技术和人们生活水平的不断提高，机动车的数量不断增多，交通运输问题也随之越来越突出，采用现代化的管理方法来实现交通管理这一要求变得更加迫切。智能交通系统是

学位

车道线边缘分布特征识别算法图像分割

基于小波变换的相位测量轮廓术关键技术研究

物体三维重建技术是一种快速精确获取物体表面三维信息的重建测量技术,目前已经广泛应用在3D打印、目标识别、文物保护、电路板印制、产品制造业、现代医学等众多领域中。而

学位

物体三维重建相位测量技术相位提取相位展开小波变换轮廓术

恶意URL检测项目中基于PageRank算法的网络爬虫的设计和实现

随着Internet的迅速发展,网上信息以爆炸性的速度不断丰富和扩展,如何有效地采集并利用这些信息成为一个巨大的挑战。搜索引擎正是解决这一问题的有效工具,而高效的网络爬虫

学位

网络爬虫恶意URL检测多线程PageRank算法

基于行为分析的木马检测算法在ICS中的研究

工业控制系统(Industrial Control System,ICS)是涉及国计民生的能源、电力、化工、市政、交通等领域的核心系统,其安全性直接关系到生产安全、环境安全、生命安全甚至国家安

学位

工业控制系统木马检测模式识别网络行为

基于属性的签密方案研究

签密能够在一个逻辑步骤中同时完成公钥加密和数字签名的功能，能保证信息传输的机密性、完整性、不可伪造性和可验证性，其计算量和通信开销都低于传统的“先签名再加密”。基于

学位

公钥密码体制签密密钥协商数字签名

基于RIA的远程实验系统的研究与实现

随着现代网络技术、计算机技术、多媒体技术的不断发展,远程实验已经成为远程教育的重要组成部分。远程实验利用了网络、远程控制的优势,以硬件平台为载体,以网络为通道,结合

学位

远程实验RIAWeb Service信息流动态显示算法HTML5

基于遗传算法的无线传感器网络节点自身定位算法研究

无线传感器网络作为一种新兴技术,在工农业、城市管理、抢险救灾等许多领域都有重要的科研价值和应用前景,是目前学术界研究的热点问题之一。其中,传感器节点的定位问题是无

学位

无线传感器网络集中式定位遗传算法模拟退火算法性能评价

基于深度学习和迁移学习的语音情感识别方法研究

其他学术论文