论文部分内容阅读
基于生物特征的身份识别技术是当前国际上的重点研究内容,自动说话人识别通过语音识别说话人的身份,由于其信息来源获取的简单性,其在系统安全认证、司法鉴定、金融服务以及电子侦听等领域有着广泛的应用价值。说话人识别包括说话人辨认和说话人确认2个方面,本文专注于在干净语音、闭集、与文本无关条件下,对普通话的注册用户做说话人辨认研究。
整个说话人辨认系统主要由特征提取、模型生成和判据生成3种功能模块组成,目前,研究者们公认的最具代表性的说话人辨认系统为:采用美尔倒谱系数(MFCC)作为特征矢量;采用高斯混合模型(GMM)为注册者参数模型;采用贝叶斯判据为判据生成方式。研究的重点是对说话人辨认中最常用的注册者参数模型GMM的改进。
本文的主要研究内容如下:一、提出了一种GMM的改进模型:时间-空间分布模型(TSDM)。相对于只包含特征矢量空间分布信息的GMM模型,TSDM能在空间分布信息的基础上引入一定程度特征矢量间在时间上的统计联系,将时间信息和空间信息融合到一起,从而提高了说话人辨认系统的识别率。同时,仿效GMM的判据生成过程,提出了一套TSDM相应的判据生成方法。
二、提出了一种“改进的分维GMM”(MIDGMM)训练的方法。通过去相关和根据离散直方图中峰的个数决定“分维GMM”训练时混合分量的个数,该方法能在大幅提高训练速度和缓解“维数灾难”的基础上相对于传统GMM保持甚至提高识别性能。
三、为了“改进的分维GMM”算法中去相关的需要,提出了一种基于Schmidit正交化的去相关方法。相对于传统的去相关方法PCA,Schmidit正交化能以一种运算量较小的方法实现相同的去相关效果。