论文部分内容阅读
随着国际化社会的发展,仅仅一种语言已不能满足不同语言国家的人们之间的交流需求,而且并不是每个人都能短时间内熟练掌握多种语言,故而跨语种语音合成的产品应用需求急剧增加。随着统计参数语音合成技术的发展,尤其是基于HMM的语音合成技术,跨语种语音合成的研究取得了一定的进展。 若想将跨语种语音合成应用于产品中,必须构建一个速度快、精简的语音合成系统,而实际上满足要求的中英文语音合成系统较少。对于特定说话人的跨语种语音的合成,有研究者提出的基于音素的跨语种语音合成技术,来解决语料短缺的问题。虽然它能够合成特定说话人跨语种语音,但是对于中英文来说,两种语言的音素差异太大,合成语音的效果不尽人意。而后来有人提出基于状态映射的跨语种语音合成方法,效果较好,该方法具有很大的研究与应用价值。本文在前人的研究成果基础上,主要做了以下一些工作: (1)本文以Flite+hts_engine为参考,在分析文本分析的各个模块的基础上,对英文合成软件Flite+hts_engine进行了一定的改进,包括文本预处理、句子结构调整以及数字化处理等等。改进后的系统,在保证合成语音质量几乎不变的情况下,减少了整个系统运行所需的内存空间,运行速度更快、系统占用空间更小,是嵌入式平台下英文语音合成的一种更好的选择。 (2)本文在SYN6658的中文TTS的基础上,结合改进的英文合成技术,经过分析比较中文TTS和英文TTS的特性之后,提出了一种构建简单快速、占用空间小的中英文语音合成系统的方法。构建的中英文语音合成系统能够实时快速地合成出中英文语音,系统简单、易实现且合成效果较好,是中英文语音合成产品的较好选择。 (3)本文以基于状态映射的中英跨语种自适应方法为研究对象,比较分析了MLLR、CMLLR、SMAPLR即CSMAPLR算法的性能,然后将状态映射应用于跨语种自适应中,并对自适应中两种使用状态映射信息的方式进行了比较分析。通过实验发现,基于状态映射的自适应方法具有一定的效果,CSMAPLR算法优于CMLLR算法,而且两种方式各有优劣。变换映射的方式能实现更好的语音音质,对原始的两个语言模型说话人特征的一致性有较高要求,而数据映射的方式可达到更高的说话人相似度。