论文部分内容阅读
说话人识别,又称声纹识别,是根据说话人语音来识别说话人身份的一种技术,属于当前最热门的生物特征识别技术之一。和其它生物特征识别相比,只有说话人识别支持远程认证。随着智能手机的不断普及,语音采集变得更加方便,说话人识别的优点更加突出。在移动互联网环境下,用户只需要通过手机录制一小段语音即可完成远程身份认证,而不需要接触特殊的设备,因此用户接受度高。正是因为上述这些优势,说话人识别受到了广泛的关注与研究。近年来,深度学习在很多领域都取得了显著的成绩。深度学习中的卷积神经网络(Convolutional Neural Networks,CNN)和循环神经网络(Recurrent Neural Networks,RNN)在建模能力上各有所长,CNN擅长图像特征提取,RNN擅长时序建模。受此启发,本文利用CNN和RNN优势互补的能力,将它们结合成一个统一的架构用于说话人辨认任务,本文称之为CDRNN模型。该模型首先将说话人的原始语音转为语谱图,再利用CNN的结构优势从语谱图中自动提取说话人的个性特征,最后将CNN提取出来的说话人特征输入到Deep RNN中完成分类。本文还基于CDRNN模型做了如下工作:(1)为了验证CDRNN模型用于说话人识别的有效性,本文将CDRNN模型和经典的说话人识别方法在同一个采集自真实环境中的说话人语音数据集上进行了实验对比。实验结果表明,CDRNN模型在不同说话者人数下的识别率均高于经典方法的识别率,因此CDRNN模型的有效性得以验证。(2) CDRNN中的网络模型是由CNN和RNN组成的,为了研究CDRNN中的网络模型在说话人辨认中的性能,本文从说话人特征提取和说话人建模能力两方面,将CDRNN中的网络模型和其它深度网络模型之间进行了实验对比。在自建数据集上的实验结果表明,CDRNN中的网络模型要好于其它深度网络模型。(3)本文基于深度学习框架TensorFlow实现了 CDRNN中的网络模型,并将训练好的网络模型移植到移动端安卓平台上,最后实现了一个移动端说话人识别原型系统。