基于残差网络的说话人识别算法

来源 :大连海事大学 | 被引量 : 1次 | 上传用户:aji_y
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语音识别技术地快速发展,说话人识别作为语音识别的一个重要组成部分,已经被广泛地应用到商务、安防、金融、刑侦及个性化应用等诸多领域,在生物识别技术中也占据了越来越重要的地位。基于残差网络的说话人识别算法就是将说话人语音的频谱图作为输入,利用残差网络来提取频谱图的特征描述子,然后通过网络的聚合层来将特征描述子聚合成特征矩阵,接着用全连接层来生成具有判别性的说话人特征,从而达到判别说话人身份的效果。然而,说话人识别模型在不平衡且带有噪声的数据集上训练时,模型识别的表现会发生严重的退化。为了改善说话人识别模型在这方面的表现,并且对于短语音也有很好的识别效果,本文主要从以下三个方面进行改进:(1)说话人识别模型在实际应用中所面临的问题之一就是在噪声环境下模型的表现会发生退化。基于GhostVALD算法的残差网络模型能够从带有噪声的说话人语音中提取高质量、具有判别性的说话人特征。在以上研究内容的基础上,本文通过将MultiReader技术与基于GhostVLAD算法的残差网络模型相结合,实现了对语音数据进行数据级别和特征级别的筛选,有效地改善了说话人识别模型在带有噪声的不平衡数据集上的识别效果。(2)对于实际应用中说话人音频存在较短或极短的情况,一般的说话人识别模型难以从较短的音频中提取有效的说话人特征。在第一个改进算法的基础上,我们将骨干网络修改成类似于UtterIDNet的结构,使用更多的跳跃连接来保留网络中的说话人特征信息,从而聚合出更加有效的说话人特征。(3)MultiReader技术很好地解决多个数据集不平衡的问题,但是仍然存在人为设定权重而陷入局部最优的情况。我们通过引入贝叶斯优化算法,将验证集的准确率作为基准,对数据集的权重进行搜索,并且可以在尽可能少的迭代次数内,逼近模型的全局最优解。
其他文献
模糊测试是漏洞挖掘领域一种重要的方法,它在十分轻量级的同时而且效率非常高,许多威胁性很高的漏洞都是由模糊测试工具发现的。模糊测试主要可以分为白盒、黑盒以及灰盒模糊
我国已建高铁线路中桥梁所占比重较大,随着“八纵八横”铁路网推进,高铁建设路段经过山川、河流、沟谷的情况越来越多,需要架设桥梁高架的情形也逐渐增多。发展40m简支梁可以
南一区东块进入高含水后期,剩余油的分布较之前更加复杂,地下形势更加多变,开发矛盾更加严重。马上要进入二次上返的生产阶段,在这段时间找准剩余油,制定合理的控液提效方法
炼钢-连铸生产过程是现代钢铁企业生产流程中的核心环节。目前,炼钢-连铸生产运行过程优化的研究主要集中在炼钢-连铸调度问题和连铸过程控制设定值优化两个部分。由于实际生
关键词是文档主题信息的精炼,借助关键词可以快速地获取文本主旨,其研究成果可广泛用于文档检索、文本分类、文本主题挖掘等具体领域。传统基于图的关键词提取方法主要研究的
为了解决铁矿巷道开采过程中采用尾矿砂钢纤维喷射混凝土作为巷道衬砌的应用问题,以尾矿砂取代天然河砂作为细骨料配制钢纤维喷射混凝土,并对不同钢纤维掺量的喷射混凝土进行
磁液双悬浮轴承采用电磁悬浮与液体静压两种混合支承形式,具有承载能力强、支承刚度大、无摩擦磨损、调节响应快速、主动控制性好的优点。但由于其数学模型复杂及非线性、磁
近年来,左手材料的发展非常迅速,不同谐振频段的左手材料被广泛应用于实际需要的各个方面,所设计的微波频段左手材料可以应用于目前非常流行的微波检测领域。在实际应用中,需
严格控制钻井液的性能参数对于平衡压力钻井具有重要的意义,而气侵现象会严重改变钻井液的密度,导致其密度下降,粘度升高,对钻井安全带来危害。除气器是用于除去气侵钻井液中
近年来,随着油田开发进入中后期,早期优质储层已经开采殆尽,原本不列入油田商业开发的低渗透型油气田逐步进入人们视野。新肇油田是典型的低渗透裂缝型异常高压油气田,经过近