中文语音GP特征提取方法研究

论文部分内容阅读

识别单元的选择是语音识别研究的第一步。语音识别单元可以是单词(词组)、音节和音素三种。音素单元以前多见于英文语音识别的研究中，目前中、大词汇量中文语音识别系统也在越来越多地采用。这是因为汉语音节仅由声母(包括零声母有22个)和韵母(共有38个)构成，且声韵母声学特性相差很大，便于提取音素单元的语音特征。但由于受协同发音的影响，提取的音素单元语音特征不稳定。因此，如何获得稳定的音素单元的语音特征，是当前语音识别研究的一个重要方面。管辖音系学(Government Phonology，简称GP)是目前生成音系学中主要音系学理论之一，系建立在以制约原则和参数基础之上的音系学理论。本文在管辖音系学已有研究成果的基础上，提出一个中文语音GP特征的提取策略，并进行首音GP特征的提取实验。本文的主要工作包括以下两个方面： 1、GP基本理论和中文语音音素单元GP特征表征的研究 (1)认真研究GP理论，为后期工作奠定理论基础。GP理论认为所有语青‘的语音最终都可以被分解为一系列的基本单元，称为基元。这些基元可以单独也订丁以以组合的形式构成音素。每一个基元有其本身独特的声学信号标记，而这个声学信号标记具有很好的稳定性：跨语言性和上下文无关性； (2)结合中文语音的特性，根据已有的中英语音音素的对应关系，总结归纳出中文语音首音音素的GP特征表征。 2、基于递归神经网络的中文语音GP特征提取方法研究 (1)采用Elman递归神经网络作为语音声学特征到GP特征的提取器。根据问题的特殊性，确定了网络的拓扑结构和训练策略； (2)建立实验数据库。从863语音库中挑选并分割出满足实验需求的实验数据，该数据库包含了31个首音的数据，每个首音的数据量为40个样本； (3)以MATLAB6.5为开发语言，建立了语音特征提取的实验平台，对中文语音GP特征提取进行了实现。平均而言，GP特征的提取准确率为75.48％。该结果与文献(一般是针对英文的)报道基本一致，表明GP特征可以应用到中文语音识别中。随着英文体系下GP理论的不断完善和发展，其在中文方面的应用将开拓中文语音识别的一个全新的领域。

其他学术论文