基于Fastspeech的语音合成研究与实现

来源 :四川轻化工大学 | 被引量 : 0次 | 上传用户:JK0803_sunmingfang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成是人工智能领域中的一项关键技术,是下一代技术革命的重要方向。目前语音合成技术主要存在以下问题:合成音频自然度低、机械感较强;可合成的方言种类少,地域可适性弱;可合成的说话人风格较少,语音风格单调;中英文混合文本合成效果差等。为解决以上问题,本文研究了三种语音合成方法,并进行了软件实现。本文主要做了如下四点工作:(1)首先针对传统语音合成技术所存在音频自然度低、可懂度低,深度学习语音合成模型不稳定的问题,本文研究了一种基于Fastspeech的中文语音合成方法。本方法通过前端处理、声学模型和声码器三部分实现了将输入的中文文本合成对应的音频波形。实验结果显示,本文模型合成音频的自然度主观意见评分较高,综合表现良好。(2)在中文语音合成模型的基础上,为解决语音合成技术可合成方言种类较少,地域可适性较差的问题,本文研究了一种基于Fastspeech的四川话语音合成方法。构建了四川方言数据库与数据集,采用维纳滤波算法对数据集音频进行背景降噪后,将四川话数据集在本文的中文语音合成模型的基础上进行微调训练,以迁移学习的方式训练完成了四川话语音合成模型。实验结果显示,合成音频的自然度主观意见评分较高。(3)在中文语音合成模型的基础上,为解决中英文混合语音合成效果差与说话人风格较少的问题,本文研究了一种中英文多说话人语音合成方法。该方法利用语种和说话人两个编码器分别将中英文语种和说话人编码,并利用声学模型和声码器合成语音。实验结果显示,本方法合成的中英文混合音频自然度、合成音频的说话人风格与原始音频风格相似度的主观意见评分均较高。(4)本文设计了语音合成应用软件,整合了三种语音合成方法。用户可输入任意文本并选择任一种方法合成音频,使用多说话人模型还可指定某一说话人的风格进行合成。此外,设计了语音图灵测试软件,该应用软件可测试合成的音频自然度能否达到真实人类发音水平。
其他文献
<正>近年来,河南省直机关工委以模范机关创建为主线,坚持目标导向和效果导向相统一,着力完善考核评价体系,构建了明责、考责、督责相贯通的闭环机制,强化了考在平时、干在日常的鲜明导向,有效推动了机关党建高质量发展。聚焦"三级四岗",高质量"定责"责任清单化,明确职责"是什么"。把"书记抓、抓书记"作为压紧压实党建责任的重要抓手,制定出台《关于指导督促党组(党委)履行机关党建主体责任的措施》《省直机关党
期刊
学位
学位
学位
为明确25%氟啶虫酰胺·联苯菊酯水分散粒剂对桃树蚜虫的防治效果,以25%氟啶虫酰胺·联苯菊酯水分散粒剂为试验药剂、桃为试验对象进行了桃蚜的防治效果试验。
民法中的自然资源国家所有权制度,是贯彻宪法自然资源“国家所有,即全民所有”的基础法律实现机制。自然资源国家所有权纯粹公权说与纯粹私权说均未能在法体系上整体阐明自然资源国家所有权性质。将自然资源归属主权国家控制、宪法规定的自然资源国家所有与落实于民法中的自然资源国家所有权混为一谈不符实际,将民法中的自然资源国家所有权与私人所有权进行对标的主张亦不符合自然资源国家所有权的制度目的。应准确理解宪法中社会
远程光电容积脉搏波描记法(remote photoplethysmography, rPPG)是一种利用皮肤视频序列实现非接触测量人体生命体征的光学方法。它相较于传统方法具有非接触式远程测量、使用范围广、成本低等特点,获得了科研人员众多关注,是一个十分有前景的研究方向。利用rPPG方法可以提取人体血液体积脉冲信号,进而测量与心动周期相关的众多生理指标。介绍了rPPG方法原理,使用该方法估计与心脏活
现如今,民办高等教育已发展成为了我国高等教育的重要组成部分,在满足人民群众日益增长的高等教育需求、为社会培养高层次人才、实现我国的教育现代化等方面,均发挥着不可替代的积极作用。本文以为今后民办高等教育政策发展提供一定参考为研究目的,重点梳理了改革开放前、改革开放初期、改革开放深化时期、进入新时代前后这四个阶段,简要而全面地概述中国共产党民办高等教育政策历史演变的主要线索、主要过程、主要内容及其成效
学位