基于余量自适应算法和关系网络的声纹识别方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:breeze001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,科学技术的高速发展,在给人们的社会生活带来极大便利的同时,也提高了对个人身份认证安全性上的需求。目前,基于证件或者密码的身份认证技术已然无法完全满足人们的需要,而基于生物特征的身份认证技术以其安全可靠的优势,越来越受到社会和研究者们的关注。语音是人们日常生活中交流沟通最直接、最便捷的方式,基于语音的身份识别技术也因此成为了研究的热点,这就是声纹识别技术。
  最近,深度学习技术在声纹识别领域取得的一系列的突破,尤其是基于余量的损失函数的提出,使声纹识别系统的性能有了很大的提升。然而,目前的声纹识别技术仍然有很大的优化空间。例如,针对目前采用的基于余量的损失函数,余量的设置本身就是一个难点,余量如果较小,则网络学习到的特征不具备足够的区分性,如果余量设置的过大,那么网络会陷入不收敛的状态,如何在这两者间寻求一种平衡,目前尚无很好的解决方法。另外,在用神经网络完成声纹特征的提取之后,还需要对声纹特征之间的相似度进行度量,目前采用的度量方式主要是余弦相似度,而余弦相似度是一种人工的、非参数的相似度度量方式,缺乏对于声纹相似性更深入的建模能力。因此,本文准备针对以上两个问题进行处理。
  具体来说,本文的主要贡献如下:
  (1)针对基于余量的损失函数中,余量设定困难的问题,本文提出了基于强化学习的余量自适应算法。该算法引入了强化学习的机制,可以使网络在训练的过程中,能持续的根据网络的训练状态来对余量进行调整。该算法的余量设置是类相关的,允许不同的类别选取不同的余量。
  (2)针对声纹特征的距离度量,提出了一种基于深度学习的距离度量算法。该算法引入关系网络的机制,让网络自主的对特征之间的相似性进行学习与刻画。实验证明,该算法使声纹识别系统的识别准确性得到进一步的提升。
  基于上述设计,本文构建了一个基于余量自适应与关系网络的声纹识别体系,并在数据集Voxceleb2上进行实验。实验结果表明,与目前学术界性能最好的方法相比,我们的方法在等错误率上相对降低了14.4%,证明了该方法的有效性。
其他文献
形成性评价是以学生为核心,通过对学生在学习过程中的态度、成果等方面做出评价,帮助教师改善教学策略的评价方式。形成性评价在国外教学中已经被广泛应用,并在实践中被证明具有促学作用。我国从21世纪初引进了形成性评价政策,并逐渐推行。但是目前在高等教育教学中,受限于传统教学思想与教师资源的紧缺,对学生的评价方式普遍侧重于对学习成果的测量,与形成性评价有一定差距。
  针对这种现状,本文对基于学习管理系统(Learning Management System,LMS)数据与课堂视频的形成性评价方法展开研究。研
随着物质生活水平的提高,人们越来越重视精神生活的需要,选择音乐教育的人也越来越多。钢琴教育作为音乐教育中最为成熟的方向之一,吸引了众多学员。钢琴自动转录(Automatic Music Transcription,AMT)可以对钢琴演奏内容进行符号化输出,检测当前演奏的音符,输出音调、起始时刻、终止时刻,帮助演奏者记录演奏内容,提高演奏能力。
  本文研究并实现了钢琴的自动转录系统,输入钢琴演奏音频或视频,基于图像或声音检测各个音符的演奏信息,包括音调、起始时间、结束时间。本文的主要内容包括以下三个
2009年12期我们推出“数码中国”专题,对数码领域的年度技术及应用、年度最佳产品进行一一盘点后,我们对2009年度的最佳工业设计数码产品进行了梳理和评选,在此,挑选出十大年度最佳设计产品,这些产品不仅是代表了数码产品设计的最新潮流,并且也将成为追求外观与设计感的精英人群消费首选。    01 Android英雄 第三代谷歌机HTC Hero    采用谷歌Andreid平台的智能手机已经成为20
期刊
汽车是现代生活中普遍使用的交通工具,汽车交通安全至关重要。障碍物检测依靠路况视频和计算机视觉技术,将成为未来辅助车辆安全行驶的重要发展方向。车辆由于自身设备的局限,需要通过车联网(IoV)信息交互来扩大障碍物检测的感知范围。5G移动网络可以有效地实现大规模车联网,随之兴起的网络功能虚拟化(NFV)技术将克服传统车联网的管理复杂、软硬件紧耦合等局限性,构建车联网新型网络架构。在此架构下,障碍物检测以服务功能链(SFC)的形式部署到车联网设施上,按需分配计算和带宽资源,这就是服务功能链的映射,是NFV技术的核
自动音乐转录(Automatic Music Transcription,AMT)是将声学音乐信号转换为符号标注的过程,常基于音频信息进行分析。但是多个音在同一时间会相互重叠,因此仅通过分析音频难以得到准确的识别结果,为了解决这个问题,可以采用基于计算机视觉的方法进行转录。
  现有研究中,基于视觉的钢琴转录系统主要包括两个关键算法:基于霍夫变换的钢琴键盘检测和使用分类器的按键检测,但以上两个算法在复杂的环境中准确度和鲁棒性都有待提升。本文实现了一个鲁棒的、性能更高的视觉钢琴转录系统,该系统包含四个
爱看港剧的人,必定脱口而出黎姿、余诗曼,如果偏好新加坡电视剧,你一定忘不了她。实际上,无论是电影、电视、音乐、广告还是时尚界,你总能搜寻到她的身影,永远带着甜美清新的笑颜,始终谦和真诚的态度。她时尚、明朗的气质,她自然、细腻的表演,她纯净、真诚的歌声……  她是“艺”态万方的范文芳。    家喻户晓的“Olay,女郎”    范文芳,原名范雯芳。1971年1月27日(农历正月初一)出生于新加坡,出
期刊
2009年巴塞罗那通讯展上索尼爱立信展出了一款代号为“Idou”的手机,引起了业内不小的震动,不仅仅是因为它是首款1200万像素的手机,而且在硬件配置上十分强大。不过它的正式发布却已经过去将近一年时间,第一款上市得1200万像素手机的头衔也被三星抢去,真可谓是历经波折,现在名字改成Satio的这款手机终于和我们见面了。    从“巧克力”到“冰淇淋”再到今天的“棒棒糖”,LG这样以甜品命名的系列手
期刊
从传出戴尔即将推出自有品牌手机到正式上市,也不过短短几个月时间而已,这其中不难看出PC厂家在其他领域扩张的速度。与其它PC厂家进入手机行业不同,戴尔并没有专门为手机成立独立部门,而是将其纳入按照屏幕尺寸来划分产品的系统之内,同时与中国移动深度合作也让初试手机市场的戴尔减轻了不少销售负担。    颠覆传统的设计    之所以称其为最小的戴尔,是因为前面所提到戴尔把手机也纳入其PC范围内进行管理销售,
期刊
护照是一个国家或地区的政府发放给本国家或地区的公民通用的身份证件,护照查验是指在护照持有人在出入境以及一些通关应用场景下对其进行个人信息核查从而来确定其合法身份。随着全球化的发展,使用护照进行自动身份验证的场景逐渐增多,应用前景较为广泛,同时也面临着基于护照的人脸验证方法识别精度不高以及欺骗人脸攻击的安全风险。
  首先,针对护照自动查验系统在实际应用中容易受到照片和视频等欺骗人脸攻击的问题,本文提出了一种基于深度图的人脸活体检测算法,将3D摄像头采集的人脸点云数据转换成人脸深度图,通过深度网络模型
2009年巴塞罗那通讯展上索尼爱立信展出了一款代号为“Idou”的手机。引起了业内不小的震动,不仅仅是因为它是首款1200万像素的手机,而且在硬件配置上十分强大。不过它的正式发布却已经过去将近一年时间,第一款上市得1200万像素手机的头衔也被三星抢去,真可谓是历经波折,现在名字改成Satio的这款手机终于和我们见面了。    设计:更像数码相机?    熟悉SONY Cyber-shot系列数码相
期刊