论文部分内容阅读
说话人识别始于20世纪30年代,从20世纪70年代开始日益成为国际上的一个研究热点。说话人识别具有广泛的应用前景,如:说话人核对、司法取证、医学应用、声控电子密码锁等领域。正因为说话人识别具有如此广阔的应用前景,国内外许多研究机构和研究者长期从事于这一领域的研究,推动了说话人识别技术的发展,但它还未成熟。本文重点研究了与文本无关的说话人识别技术。首先,详细讨论了说话人识别系统的基本原理,接着介绍了语音信号产生的数学模型、语音信号的数字化及预处理,内容涉及语音信号的加窗分帧、预加重滤波、端点检测;重点讨论了传统的双门限比较法的端点检测,并给出了一种改进的端点检测方法:基于ICA增强和谱熵结合的端点检测;重点分析了当前最常用的语音特征参数:基于听觉模型的美尔倒谱系数MFCC的提取方法。其次,着重讨论了说话人识别中常用的两种识别方法:基于VQ的说话人识别方法和基于GMM的说话人识别方法。详细讨论了VQ的基本原理、失真测度、最佳码本设计以及介绍了基于FVQ的说话人识别方法,实验结果表明基于FVQ的识别率较基于VQ的识别率提高了近十个百分点;接着介绍了GMM的基本概念、模型参数的估计算法以及说话人识别算法的实现,通过实验确定了识别的最佳混合数M。通过不同长度的训练语音进行仿真实验,得出在实验条件相同的情况下,基于GMM的说话人识别识别率较好。最后对本文的工作进行了总结,同时对未来的研究工作进行了展望。