基于高斯混合模型的与文本无关闭集说话人辨认研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:jiuki
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于生物特征的身份识别技术是当前国际上的重点研究内容,自动说话人识别通过语音识别说话人的身份,由于其信息来源获取的简单性,其在系统安全认证、司法鉴定、金融服务以及电子侦听等领域有着广泛的应用价值。说话人识别包括说话人辨认和说话人确认2个方面,本文专注于在干净语音、闭集、与文本无关条件下,对普通话的注册用户做说话人辨认研究。 整个说话人辨认系统主要由特征提取、模型生成和判据生成3种功能模块组成,目前,研究者们公认的最具代表性的说话人辨认系统为:采用美尔倒谱系数(MFCC)作为特征矢量;采用高斯混合模型(GMM)为注册者参数模型;采用贝叶斯判据为判据生成方式。研究的重点是对说话人辨认中最常用的注册者参数模型GMM的改进。 本文的主要研究内容如下:一、提出了一种GMM的改进模型:时间-空间分布模型(TSDM)。相对于只包含特征矢量空间分布信息的GMM模型,TSDM能在空间分布信息的基础上引入一定程度特征矢量间在时间上的统计联系,将时间信息和空间信息融合到一起,从而提高了说话人辨认系统的识别率。同时,仿效GMM的判据生成过程,提出了一套TSDM相应的判据生成方法。 二、提出了一种“改进的分维GMM”(MIDGMM)训练的方法。通过去相关和根据离散直方图中峰的个数决定“分维GMM”训练时混合分量的个数,该方法能在大幅提高训练速度和缓解“维数灾难”的基础上相对于传统GMM保持甚至提高识别性能。 三、为了“改进的分维GMM”算法中去相关的需要,提出了一种基于Schmidit正交化的去相关方法。相对于传统的去相关方法PCA,Schmidit正交化能以一种运算量较小的方法实现相同的去相关效果。
其他文献
在能源日益紧缺、环境问题日益凸显的今天,由于具有亮度高、能耗低、寿命长、性能稳定等诸多优点,白光LED越来越广泛地应用于生活与商业照明。室内可见光通信(Visible Light
随着因特网的迅速普及和数字视频媒体交流的日益频繁,人们对于数字视频媒体的版权保护等问题也逐渐重视起来。在视频水印技术领域,尤其是对于有意义的多比特视频水印,其检测器的
双向DC/DC变换器(Bi-directional DC-DC Converter,缩写为BDC)是一种新型的能量变换技术,它可以实现能量的双向流动。 本文首先介绍了微小卫星供电系统中的BDC设计方案,并