深度循环网络在移动端说话人识别中的应用

来源 :电子科技大学 | 被引量 : 6次 | 上传用户:ychhome
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别,又称声纹识别,是根据说话人语音来识别说话人身份的一种技术,属于当前最热门的生物特征识别技术之一。和其它生物特征识别相比,只有说话人识别支持远程认证。随着智能手机的不断普及,语音采集变得更加方便,说话人识别的优点更加突出。在移动互联网环境下,用户只需要通过手机录制一小段语音即可完成远程身份认证,而不需要接触特殊的设备,因此用户接受度高。正是因为上述这些优势,说话人识别受到了广泛的关注与研究。近年来,深度学习在很多领域都取得了显著的成绩。深度学习中的卷积神经网络(Convolutional Neural Networks,CNN)和循环神经网络(Recurrent Neural Networks,RNN)在建模能力上各有所长,CNN擅长图像特征提取,RNN擅长时序建模。受此启发,本文利用CNN和RNN优势互补的能力,将它们结合成一个统一的架构用于说话人辨认任务,本文称之为CDRNN模型。该模型首先将说话人的原始语音转为语谱图,再利用CNN的结构优势从语谱图中自动提取说话人的个性特征,最后将CNN提取出来的说话人特征输入到Deep RNN中完成分类。本文还基于CDRNN模型做了如下工作:(1)为了验证CDRNN模型用于说话人识别的有效性,本文将CDRNN模型和经典的说话人识别方法在同一个采集自真实环境中的说话人语音数据集上进行了实验对比。实验结果表明,CDRNN模型在不同说话者人数下的识别率均高于经典方法的识别率,因此CDRNN模型的有效性得以验证。(2) CDRNN中的网络模型是由CNN和RNN组成的,为了研究CDRNN中的网络模型在说话人辨认中的性能,本文从说话人特征提取和说话人建模能力两方面,将CDRNN中的网络模型和其它深度网络模型之间进行了实验对比。在自建数据集上的实验结果表明,CDRNN中的网络模型要好于其它深度网络模型。(3)本文基于深度学习框架TensorFlow实现了 CDRNN中的网络模型,并将训练好的网络模型移植到移动端安卓平台上,最后实现了一个移动端说话人识别原型系统。
其他文献
随着生产规模的扩大,我国畜牧业有了很大的发展,80%左右的规模化养殖场缺少必要的污染治理投资,随之而来的养殖业排泄物对环境的污染问题也日趋严重.有的养殖场片面的追求经
目的探讨脓毒性休克患者抗生素治疗的及时性。方法回顾性分析EICU病房符合条件的113例脓毒性休克患者。记录3个时间,第1个时间T1是自发现脓毒性休克性低血压至下抗生素医嘱的
《刑法》第三百零五条、第三百零六条、第三百零七条分别规定了妨碍刑事诉讼证据的几种情况。其中,第三百零五条规定的是伪证罪,第三百零六条增加规定了辩护人、诉讼代理人妨
随着我国核工业的发展,已经积累贮存了相当数量的放射性废物,这些废物亟需处置。随着我国运行核设施越来越多,放射性废物安全管理的要求越来越高。放射性废物的安全管理是核
本文结合某隧道的具体工程,提出了三种施工方案,对施工方案进行了对比分析,研究了其技术的可行性和经济的合理性,为隧道工程的施工组织设计奠定基础。
在新课标的要求下,小学数学教学过程中要让学生自主参与"体验学习".这种全新的教学方式能有效地促进学生全面发展,提升学生素质.本文通过对"体验学习"的研究,阐述了实施"体验学习"