蒙古语情感语音合成系统研究与实现

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:mgq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着蒙古语智能信息处理技术的飞速发展,蒙古语语音合成技术已经达到实际应用水平,可以合成高音质的语音,但是情感表现力还有待提高。语音信息不仅仅是对文字的陈述,同时还需要包含很多的副语言信息,比如语速、语调、情感等。要想更好地将文字转化为拟人化的语音,合成带有情感的语音是必不可少的。研究蒙古语情感语音合成技术不仅能够扩展语音合成应用场景,还对推动蒙古语智能信息化发展具有重要意义。本文研究内容如下:1.构建了蒙古语情感语音数据库。本文构建了包含8种离散情感的蒙古语情感语音库,分别为高兴、生气、悲伤、惊奇、恐惧、厌恶、无聊以及中性情感。每种情感使用500句语料进行录制,共建立6.1小时的蒙古语情感语音库。2.端到端语音合成模型对数据规模有很强的依赖性,为了在有限规模情感语音数据下,合成高质量情感语音,本文提出了基于情感自适应的蒙古语情感语音合成方法。首先使用大量中性蒙古语语音数据训练得到预训练模型,然后使用情感语音对预训练模型进行微调,得到自适应蒙古语情感语音合成模型。实验结果表明,该方法在情感自然度、清晰度方面都远超未进行预训练的基线模型。3.本文提出了情感可控的蒙古语语音合成模型。通常情感语音合成模型仅能够合成单一情感语音,无法用单一模型随意合成多类情感语音。本文首次在蒙古语情感语音合成模型的基础上添加情感标签,研究了情感可控的蒙古语情感语音合成模型,同时将不同维度情感向量作为输入,并对合成的效果进行了实验比较。实验结果表明,使用8维情感向量对情感标签进行表示,能够合成情感区别明确、质量较高的情感语音。4.搭建蒙古语情感语音合成系统。本文采用B/S架构、Flask框架和Tacotron2模型,设计并构建了蒙古语情感语音合成云服务系统,在此基础上开发了相应的演示系统。
其他文献
随着互联网的兴起和普及,我们进入了一个人人都生产数据的时代,需要处理和存储的数据呈指数式的增长,但传统的数据处理和存储技术却遭遇了瓶颈。而云计算作为海量数据处理和存储的主流平台应运而生。Hadoop则是云计算开源的分布式并行计算框架之一,由Apache旗下基金会发布,被广泛地应用于众多大公司,例如雅虎、脸书、亚马逊、谷歌、微软等。因此,Hadoop渐渐地成为了云计算平台海量数据处理和存储的主流框架
近年来深度学习广泛应用于图像分类、目标检测、图像分割、语音识别等众多领域中.图像修复是计算机视觉领域中的一个重要课题,常见于影视娱乐、医疗影像、公共安全、文物修复等日常生活的方方面面,其主要任务是利用图像整体结构纹理重绘缺失部分的细节,使修复完成的图像内容和谐一致.深度学习很好地解决了传统图像修复的局限,提高了修复模型的学习能力,显著改善了修复效果.时至今日,人们针对不同问题提出了众多图像修复的方
ARINC429是航空电子设备中广泛使用的一种总线协议。近年来,随着我国航空航天技术不断发展,对航空通讯设备的需求越来越大。国内航空通讯设备所用集成电路芯片长期依赖进口,经常面临各种限制问题,因此我国迫切需要拥有自主研发的航空通讯设备。本论文旨在研制一款基于CPCI总线的国产化ARINC429通讯模块,该模块可以提供4路ARINC429接收通道和2路ARINC429发送通道,采用国内先进的集成电路
自旋转移矩磁随机存储器(Spin-Transfer Torque Magnetoresistance random access memory,STT-MRAM)有望代替传统存储器,其高效,非易失性,存储时间长等优点引起了人们的关注。随着科技的不断进步,存储器也不断面临新的挑战。近年来,随着MRAM的存储密度不断增加,尺寸不断减小;同时,还要通过增强磁各向异性来提升存储器的热稳定性。如何可以更好地
面向汉语、英语等大语种的语音交互系统已经应用于科技和生活的各个方面,极大地提高了信息获取效率。而蒙古族人民也对语音交互系统有广泛的需求,希望使用蒙古语与智能设备交互。因此本文设计并实现了面向蒙古语的语音交互系统,本系统由蒙古语语音识别、问答系统、语音合成三部分组成。其中问答系统是语音交互系统的核心部分,问答模型性能的好坏直接影响语音交互系统生成回答的语言质量。目前还没有公开的高质量蒙古文问答语料库
语音增强的目标是抑制噪声,增强期望的语音信号。基于信号处理的传统语音增强方法为了简化计算或获得解析解做了许多假设,在低信噪比与包含非平稳噪声的场景下会出现严重的性能下降。基于深度学习的语音增强方法具有强大的非线性映射能力,在拥有大量训练数据的前提下有望超过传统方法。目前,基于深度学习的主流增强方法通常将语音增强任务建模为全频带谱映射问题,间接忽视了语音增强领域过去几十年的经验积累。基于信号处理的传
语音增强旨在利用信号处理技术及各种算法提高语音的质量与可懂度。作为语音识别系统的前端模块,它在语音交互、电话会议、听力辅助以及军事窃听等场景中发挥重要作用,得到了学术界和工业界的广泛关注。与传统方法相比,基于深度学习的语音增强方法在应对低信噪比以及非平稳噪声方面表现突出,但在一些方面仍然存在不足。深度学习框架下的语音增强方法,通常使用均方误差(MSE)作为优化模型参数的目标函数。但一些研究表明,具
随着物联网的发展和移动设备的普及,室内位置感知服务需求与日俱增。基于位置指纹的无线室内定位技术因原理较为简单、成本相对较低和普适性强的特征受到了学术界和工业界的广泛关注。现有研究表明,通过优化室内环境中Wi-Fi接入点和低功耗蓝牙(Bluetooth Low Energy,BLE)基站的部署位置可提升定位精度,但仍然存在以下问题:(1)采用启发式搜索算法易得到局部最优解,并且解决大场景问题时,需耗
随着研究人员对英文语音识别和语音合成技术的深入研究,英文发音词典作为这两项技术中连接声学模型和语音模型的重要一环,其构造方法也有了很大的发展。但是,现有的英文发音词典构造方法仍然存在着例如依赖于语音和文本平行语料、数据采集困难、专家标注成本高等一系列的问题,因此需要研究更有效的方法提升发音词典构造效率。为解决上述问题,本文开展了基于非平行语料的英文发音词典构造方法的研究,主要内容如下:首先,本文针
语音是我们生活中使用最为普遍和方便的交流方式,而且每个人由于生理特征和行为的差异,导致所发出的声音特征也不尽相同。从理论上来说,任何两个人的声纹信息都各不相同。声纹识别就是根据该理论,通过对比分析不同说话人之间的声纹特征差异,从而识别出说话人真实身份的一种新型生物认证技术。SOPC,是一种基于FPGA的片上可编程系统。基于SOPC的声纹识别系统,具有体积小、稳定性好且开发成本低的优势,其应用前景非