噪音环境下的端到端说话人识别研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:wston
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是通过分析和提取一个或多个语音信号的特征来确定说话人身份的技术,也称为声纹识别(voiceprint recognition)。说话人识别技术是继指纹识别、人脸识别、虹膜识别之后又一有着广阔应用场景的身份验证技术之一。以其独特的适用性、方便性和准确性以及无肢体接触的特点,成为当前语音领域一个重要的研究热点。20世纪90年代中期,特别是高斯混合模型应用于说话人识别领域之后,说话人识别技术便持续受到研究者关注,得到了很大的发展和改进。目前说话人识别技术对纯净语音的识别效果已经有了较高的水平,然而在实际生产应用中,说话人识别系统的鲁棒性、可迁移性、短语音识别率等方面都还有着较大的提升空间。现实生活场景中最常见的诸多噪声已经成为影响说话人模型识别性能的重要因素之一。因此,如何有效地提高说话人识别系统在真实噪声环境中的识别性能,成为当前语音领域最重要的研究热点之一。本文主要研究内容如下:(1)系统介绍了说话人识别基本知识和当前面临的主要技术难点,分析了说话人识别常用算法的优缺点,选取基础i-vector说话人识别模型和LSTM说话人识别模型使用AISHELL开源数据中的部分数据进行了初步的实验对比。(2)主要对语音信噪比计算、截幅检测等相关方面的内容进行研究,提出了实现语音信噪比计算和截幅检测的方法,分别基于C++实现了批量语音信噪比计算、基于python实现了批量音频截幅检测工具。在训练中,可以通过语音截幅检测来过滤掉有截幅的音频,提升模型训练数据质量;在实际应用场景中,通过音频信噪比计算对音频质量分类和语音降噪来提升录入音频质量,进而提升说话人识别系统性能。(3)相比较于传统的说话人识别技术(如GMM-UBM,JFA,i-vector等),本文聚焦于深度学习框架下端到端的说话人识别方法,分别设计了基于端到端的CNN-LSTM和Res Net-LSTM融合网络模型,通过设置不同信噪比数据集进行对比实验。实验结果表明,在两个公开语音数据集上本研究所提模型相较于基础的CNN-LSTM说话人识别模型识别性能更好,进而证明了使用更深的残差网络来替换卷积网络能够更好地提取说话人语谱图特征。通过选取Triplet Loss和GE2E Loss代替原本网络结构中的Soft Max交叉熵损失函数对网络结构做出改进,实验表明选择GE2E Loss函数能够进一步有效提升当前网络模型的识别性能。
其他文献
旋转机械振动信号是非稳态信号,其故障诊断是一个难题。本文在研究希尔伯特振动分解算法的基础上对其实行了改良,用于齿轮和轴承故障识别,并证验所提方法的有效性。本文所做的工作和取得的成果如下:1、研究了希尔伯特振动分解的分解能力,通过仿真信号分析找出希尔伯特振动分解的缺陷,然后提出了基于镜像延拓的希尔伯特振动分解方法,解决了希尔伯特振动分解方法的端点效应缺陷;利用仿真信号分解比较了希尔伯特振动分解方法和
阅读是搜集处理信息、认识世界、发展思维、获得审美体验的重要途径。阅读教学是语文教育的重要组成部分,新课程改革对语文阅读教学提出了更高的要求。本文在新课程理念的指导下,依据阅读教学的原则,以百色民族高中为个案,通过调查和访谈,了解新课改背景下高中语文阅读教学的现象及存在的问题,分析问题的原因并探索改进策略。希望能指导百色民族高中的教学实践,充实少数民族地区新课程改革的实践案例。文章由绪论、主体、结语
水稻不仅是重要的粮食作物,也是植物研究的模式物种。目前已有粳稻日本晴(Oryza sativaL.ssp.japonica cv.Nipponbare)、籼稻9311(Oryza sativa L.ssp indica cv 9311)以及非
镁颗粒具有较高的反应活性、体积能量密度和绝热燃烧温度等特性,被广泛应用于混合炸药、固体推进剂、烟火药等领域。关于镁颗粒的点火及燃烧特征的研究从20世纪60年代开始始
世界柔道锦标赛是仅次于奥运会规格的赛事,对赛场上获得奖牌的运动员进行技战术分析,不仅可以了解世界柔道锦标赛女子运动员的技战术特点,而且对我国女子柔道运动员和教练员在今后的训练和比赛提供有价值的参考。本文运用文献资料法、录像分析法、专家访谈法、数理统计法等方法对2017年世界柔道锦标赛女子排名前三名的运动员的投技技术、寝技技术、连络技技术、战术运用等情况进行统计分析,通过研究得出以下结论:(1)20
心脑血管疾病是人类健康的一大杀手,动脉粥样硬化(atherosclerosis)是其常见的诱因。动脉粥样硬化往往伴随着血管内部斑块的出现,斑块的形态各异,主要分为稳定斑块和易损斑块
茶尺蠖(Ectropis oblique,Eo),是茶园中发生最普遍,危害最严重的食叶害虫之一。主要分布于广东、广西,四川、江、浙一带茶区。由于目前茶尺蠖防治方法主要为化学药物喷洒,因而其体内某些基因可能在杀虫剂代谢时起作用。本研究通过对溴氰菊酯处理后的茶尺蠖转录组分析中筛选出四个表达量升高的基因——谷胱甘肽硫转移酶EoGST534和EoGST968,UDP-糖基转移酶Eo UGT438和Eo U
本文以应用于寒区高速铁路路基基床的水泥稳定碎石为研究对象,通过室内试验模拟水泥稳定碎石基床经历长期冻融循环后的无侧限抗压强度和抗折强度变化规律,并使用MATLAB软件对
目的:通过腹针疗法治疗初发脑卒中上肢偏瘫患者,从肌电层面对腹针进行疗效分析,为脑卒中上肢偏瘫患者寻求更有效的康复方案,并探究肌肉协同作为康复评定的可行性。方法:本研究采用前瞻性、随机、对照的试验方法,通过选取22例符合纳入标准的脑卒中后上肢运动功能障碍的受试者,根据随机数表法随机分为腹针组11例,腹针假针刺组11例。治疗过程为30分钟/次,1次/天,5天/周,共2周。治疗前后分别行肌力、Brunn
地方志是中国文化遗产中的瑰宝,是保存地方历史文化史料的载体,全面反映了一地社会经济,历史文化,典章制度等方面的发展变迁。甘肃修志传统悠久,从两汉到民国,前后修纂了大量志书,其中不乏名人名志。[乾隆]《甘肃通志》作为甘肃现存的第一部省志,较为全面的反映了甘肃从上古至清雍正年间的政治、经济、文化、教育、风俗以及社会生活等诸方面情况,对研究甘肃地区社会发展进程和历史文化变迁有重要参考,具有较高的文献史料