论文部分内容阅读
随着语音识别技术地快速发展,说话人识别作为语音识别的一个重要组成部分,已经被广泛地应用到商务、安防、金融、刑侦及个性化应用等诸多领域,在生物识别技术中也占据了越来越重要的地位。基于残差网络的说话人识别算法就是将说话人语音的频谱图作为输入,利用残差网络来提取频谱图的特征描述子,然后通过网络的聚合层来将特征描述子聚合成特征矩阵,接着用全连接层来生成具有判别性的说话人特征,从而达到判别说话人身份的效果。然而,说话人识别模型在不平衡且带有噪声的数据集上训练时,模型识别的表现会发生严重的退化。为了改善说话人识别模型在这方面的表现,并且对于短语音也有很好的识别效果,本文主要从以下三个方面进行改进:(1)说话人识别模型在实际应用中所面临的问题之一就是在噪声环境下模型的表现会发生退化。基于GhostVALD算法的残差网络模型能够从带有噪声的说话人语音中提取高质量、具有判别性的说话人特征。在以上研究内容的基础上,本文通过将MultiReader技术与基于GhostVLAD算法的残差网络模型相结合,实现了对语音数据进行数据级别和特征级别的筛选,有效地改善了说话人识别模型在带有噪声的不平衡数据集上的识别效果。(2)对于实际应用中说话人音频存在较短或极短的情况,一般的说话人识别模型难以从较短的音频中提取有效的说话人特征。在第一个改进算法的基础上,我们将骨干网络修改成类似于UtterIDNet的结构,使用更多的跳跃连接来保留网络中的说话人特征信息,从而聚合出更加有效的说话人特征。(3)MultiReader技术很好地解决多个数据集不平衡的问题,但是仍然存在人为设定权重而陷入局部最优的情况。我们通过引入贝叶斯优化算法,将验证集的准确率作为基准,对数据集的权重进行搜索,并且可以在尽可能少的迭代次数内,逼近模型的全局最优解。