蒙古语语音交互系统的设计与实现

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:flyingmomo1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向汉语、英语等大语种的语音交互系统已经应用于科技和生活的各个方面,极大地提高了信息获取效率。而蒙古族人民也对语音交互系统有广泛的需求,希望使用蒙古语与智能设备交互。因此本文设计并实现了面向蒙古语的语音交互系统,本系统由蒙古语语音识别、问答系统、语音合成三部分组成。其中问答系统是语音交互系统的核心部分,问答模型性能的好坏直接影响语音交互系统生成回答的语言质量。目前还没有公开的高质量蒙古文问答语料库,且蒙古文问答模型与深度学习结合的相关研究处于起步阶段。针对以上问题,本文进行了如下研究:(1)针对蒙古文问答语料匮乏的问题,构建了蒙古文问答语料库(Mon QA Corpus)。本文搜集了大量开放领域单轮中文问答语料,对其进行汉蒙翻译、自动筛选、人工校正等一系列处理,构建了含有约1.5万对日常问答对话的高质量蒙古文问答语料库,用于后续生成式问答模型的建模研究。(2)为了在有限的语料下生成更多样的回答,本文使用基于序列到序列的生成式蒙古文问答模型。根据长短时记忆网络(LSTM)的特点,构建了基于LSTM-LSTM蒙古文问答基线模型。为了提升模型生成回答的语言质量,本文在编码器中引入了门循环单元(GRU)网络结构,构建GRU-LSTM问答模型,通过实验发现,该模型相比基线模型在提升生成回答的质量方面并不明显。为了使问答模型生成的回答更加合理且具有上下文关系,本文在基于LSTM、GRU、BiLSTM、Bi GRU四种不同编码器结构的基础上,在解码器解码的过程中加入注意力机制,构建LSTM-AM-LSTM、GRU-AM-LSTM、BiLSTM-AM-LSTM和Bi GRU-AM-LSTM四种问答模型。通过实验发现,采用GRU-AM-LSTM网络结构的蒙古文问答模型生成回答的效果最优。(3)为了使问答模型获得更丰富的语义表达,本文将加入注意力机制的序列到序列问答模型融合预训练蒙古语BERT模型的最后一层词嵌入输出,构建Bmo GRU-AM-LSTM问答模型。实验表明,该模型能有效提升回答的上下文语义相关性和丰富度。(4)本文将BmoGRU-AM-LSTM蒙古文问答模型应用到蒙古文问答系统的构建中,结合蒙古语语音识别和语音合成服务,设计并实现基于安卓的蒙古语语音交互系统。测试结果表明,本文研发的蒙古语语音交互系统可以进行蒙古语单轮语音人机交互,且生成的答案与问题的语义相关度较高。
其他文献
多视角个体动作识别研究是计算机视觉领域的一个前沿课题,旨在通过检测多视角动作数据而提取相关特征,继而对动作特征理解以实现动作分类的过程。个体动作的多样性、不同种类动作的相似性以及相同种类动作的差异性都增加了识别难度;拍摄场景的复杂性、光照的强弱性和视角的多变性也同样影响着识别效果。为了改善多视角个体动作的识别效果,本文搭建了基于残差网络(Residual Network,ResNet)和长短期记忆
智慧物联网行业的兴起,为草原火灾监测预警系统的实现提供了更加细致精密的手段。在草原火监测中,运用各类传感器对草原环境进行有效的监测,以大数据分析及人为控制等手段为草原构建出各季最优环境,是进一步抑制草原火灾的重要举措。本文针对现有的草原火监测系统存在的数据采集时能量所耗较多、数据因未进行全网同步而不具有时效性等问题,选用以ZigBee为技术基础的成本较低、功耗适中、分布式自组织无线传感器网络,设计
近年来对于植物的保护成为研究热点,在复杂广阔的自然环境下,无人机航拍成为植物图像获取的最佳方式。鉴于地面终端管理系统在航拍图像管理中的核心地位,对地面终端系统的深入研究成为航拍项目的重中之重。本文首先从实验室课题背景出发,采集内蒙古自然环境中植物的航拍图像进行分割与识别,以便统计区域内的植物种类及生长情况,本文针对课题应用所需设计一款地面终端管理系统,本地面终端系统可使操作人员对传回地面的图像更加
随着畜牧业的发展,规模化、精细化、智能化养殖已经成为牛养殖业的必然发展趋势。牛个体识别技术是牛精细化养殖和保险业的基础,并且牛的育种、疾病控制、智能化管理,以及乳制品与牛肉制品的质量监管等方面都需要高效的个体识别技术。随着深度学习技术在图像领域的发展,基于生物特征的牛个体识别技术取得了长足进步。本文以牛的面部特征为基础,提出了基于深度学习的牛面部图像识别方法,具体工作如下:1.构建牛面部图像数据集
近几年,公共场所佩戴口罩已经成为大多数国家的共识。同时卷积神经网络在图像识别领域有着良好的应用前景,卷积神经网络需要大量的资源和内存,并且计算量大,FPGA凭借其可重构、低延迟和低功耗等特点,成为主流的应用平台之一。本文通过在FPGA端部署卷积神经网络并识别口罩佩戴情况主要研究成果如下:1.在软件端,利用自主设计的卷积神经网络检测口罩佩戴情况,得到98.5%的识别准确率,并可区分出佩戴口罩不规范和
内蒙古自治区是全国五大牧区之一,在全国畜牧业中占据重要的地位。自治区的发展战略目标中提到,要逐步推进新型的信息科技在畜牧业中深层次的融合应用。其中,牛的个体识别技术对智慧牧场建设和畜牧业保险有着重要意义。三维识别方法比二维识别能提供更丰富的空间信息,可以更精准地进行个体识别。而在三维识别中,牛面部的三维重建是至关重要的一环,对畜牧业的智慧管理具有一定的应用价值。本文针对牛面部三维图像重建的主要研究
随着互联网的兴起和普及,我们进入了一个人人都生产数据的时代,需要处理和存储的数据呈指数式的增长,但传统的数据处理和存储技术却遭遇了瓶颈。而云计算作为海量数据处理和存储的主流平台应运而生。Hadoop则是云计算开源的分布式并行计算框架之一,由Apache旗下基金会发布,被广泛地应用于众多大公司,例如雅虎、脸书、亚马逊、谷歌、微软等。因此,Hadoop渐渐地成为了云计算平台海量数据处理和存储的主流框架
近年来深度学习广泛应用于图像分类、目标检测、图像分割、语音识别等众多领域中.图像修复是计算机视觉领域中的一个重要课题,常见于影视娱乐、医疗影像、公共安全、文物修复等日常生活的方方面面,其主要任务是利用图像整体结构纹理重绘缺失部分的细节,使修复完成的图像内容和谐一致.深度学习很好地解决了传统图像修复的局限,提高了修复模型的学习能力,显著改善了修复效果.时至今日,人们针对不同问题提出了众多图像修复的方
ARINC429是航空电子设备中广泛使用的一种总线协议。近年来,随着我国航空航天技术不断发展,对航空通讯设备的需求越来越大。国内航空通讯设备所用集成电路芯片长期依赖进口,经常面临各种限制问题,因此我国迫切需要拥有自主研发的航空通讯设备。本论文旨在研制一款基于CPCI总线的国产化ARINC429通讯模块,该模块可以提供4路ARINC429接收通道和2路ARINC429发送通道,采用国内先进的集成电路
自旋转移矩磁随机存储器(Spin-Transfer Torque Magnetoresistance random access memory,STT-MRAM)有望代替传统存储器,其高效,非易失性,存储时间长等优点引起了人们的关注。随着科技的不断进步,存储器也不断面临新的挑战。近年来,随着MRAM的存储密度不断增加,尺寸不断减小;同时,还要通过增强磁各向异性来提升存储器的热稳定性。如何可以更好地