面向低语料的蒙古语在线语音识别模型研究

来源 :内蒙古工业大学 | 被引量 : 0次 | 上传用户:hua50776007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
端到端语音识别模型将声学模型和语言模型集成为一个整体,不需要人工对齐音频与文本,能够直接将音频转换为文本。基于注意力机制的序列到序列模型是端到端语音识别的一种实现,并在英文数据集Librispeech上取得了SOTA的识别结果。本文以基于注意力机制的序列到序列模型为基础开展蒙古语在线语音识别研究,其中存在以下几个问题:(1)蒙古语数据集是低资源语料,即有标注的蒙古语音频匮乏且地区分布不均衡。低资源蒙古语数据集用于训练基于注意力机制的序列到序列模型时,会发生模型过拟合部分地区数据的问题。(2)基于注意力机制的序列到序列模型首字延迟过高,不能满足在线语音识别任务的需要。针对这些问题,对低资源的蒙古语在线语音识别开展了如下工作:(1)针对蒙古语数据集中有标注数据匮乏的问题,结合数据集中地区分布不均衡的特点,本文提出了指定地区的对抗生成模型。模型通过条件语音生成器和多项融合判别器的对抗学习,生成具有指定地区特征和对应蒙古语文本的蒙古语音频。实验表明,指定地区扩充一倍容量后的蒙古语数据集与原蒙古语数据集相比,在基于注意力机制的序列到序列模型上的字错率由5.1%降低至3.5%。(2)针对基于注意力机制的序列到序列模型中首字延迟过高的问题,结合语音识别任务中音频特征与文本之间单调线性对应的特点,本文提出了窗长控制的在线语音识别模型。模型通过延迟控制编码器和阶段对齐注意力机制实现了流式解码,并对比模型窗口策略得到最优参数。实验表明,改进后的模型相较于原始模型的首字延迟降低约33.3%,而字错率和句错率损失仅为6.4%和8.5%。(3)为了将蒙古语在线语音识别模型应用到在线环境中,本文设计并实现了具有语料采集、模型训练和在线识别等功能的实验系统。通过构建蒙古语在线识别系统,进一步验证蒙古语在线语音识别模型的可行性和有效性。
其他文献
复合抛物面聚光器(Compound Parabolic Concentrator简称CPC)是一种低倍聚焦的非成像聚光器,在太阳能中低温热利用领域有着广阔的应用前景。本文以热管式真空管复合抛物面聚光集热器为研究对象,通过实验探究了不同工况下热管式真空管接收器的传热性能,确定CPC聚光器结构优化衡量标准;之后对CPC聚光器建立光线追踪模型,通过编制程序,分析不同结构参数下CPC的光学性能,确定热管式
近年来很多国家利用生物质与煤混燃发电来缓解化石能源紧缺及环境污染问题,共燃烧技术已经得到社会各界的关注。生物质和煤的共燃烧与其固有矿物质以及结构密切相关,深化对生物质与煤共燃烧的认识,对褐煤与生物质共燃技术的改进具有重要的指导意义。本文选用江苏省连云港的油菜秸秆及内蒙古自治区锡林郭勒的胜利褐煤作为研究对象,首先利用热重分析技术对这两种物质的燃烧性能进行了比较,并通过工业分析、SEM-EDS、XRD
随着社会的发展和全球人口数量的增加,淡水资源短缺已成为人类社会面临的最关键问题之一。太阳能界面蒸发技术作为一种新兴的水处理技术,在仅使用太阳能这一低品位能源的前提下为淡水资源匮乏的地区生产淡水,且不会破坏环境,从而成为研究者们近几年来的研究重点。尽管在光热转化效率方面取得了巨大的进步,但是太阳能界面蒸发系统的大规模应用仍然受到材料制备工艺的复杂性和高成本的制约。因此开发一种成本底、结构简单、易于加
随着组合导航技术的快速发展,基于卫星/惯性松组合导航系统因其便于工程实现而被广泛采用。但当卫星信号失锁时,卫星/惯性松组合导航系统将转为纯惯性导航系统,导致精度急剧下降。针对该问题,本文对北斗/MEMS-SINS松组合可持续导航算法及其嵌入式实现方法展开研究。首先,研究捷联式惯性导航系统解算原理和北斗/MEMS-SINS松组合导航系统的基本原理,设计了基于定位定向北斗导航接收机的的北斗/MEMS-
地基微变监测雷达在边坡滑坡、人工建筑物微小形变监测领域已经得到了广泛的应用,但受制于二维雷达图像的几何畸变问题,无法实现对高陡边坡等地形复杂区域的形变监测。地基微变监测雷达三维成像能够从根本上消除二维雷达图像的几何畸变问题,在近年来得到广泛的研究。在微变监测方面,差分干涉技术在边坡等的微变监测领域得到了广泛应用;但由于其重访周期较长,在形变速度较快目标的微变监测方面,出现严重的相位缠绕问题,导致解
关于微弱信号的定义有两种,一种是指有用信号幅度绝对值很小,另一种是指有用信号的幅度相对噪声来说很微弱。本课题主要讨论第二种情况下的微弱信号,即淹没在高斯白噪声背景下的微弱周期信号。传统的微弱信号检测方法都是通过抑制或者滤除噪声来提高系统输出信噪比,但当信号和噪声同频带情况下,滤除有害噪声的同时,部分有用信号也会被破坏,这就使得检测微弱信号的准确性大幅降低,导致得不到理想的结果。正是这些问题的存在,
在我国的青藏高原上以及位于北纬35°以北的地区的江河,冬季极其容易结冰成凌,到了春季开河时期,往往会发生凌汛灾害,其中黄河内蒙古段的情况尤为严重,为了减少甚至避免凌汛灾害造成的影响,需要及时、准确地获取冰情信息。极化合成孔径雷达(Polarimetric Synthetic Aperture Radar)Pol SAR技术的出现,使得成像雷达对目标信息的获取能力得到了极大地增强。这为实现更大范围、
空时自适应处理(STAP)是机载雷达在非均匀环境中进行运动目标检测的关键技术。抑制检测环境中的杂波与干扰是机载雷达完成目标检测任务的基础。传统STAP方法要想获得理想的处理性能,理论上用于估计杂波功率谱的训练样本数量不能少于系统自由度的两倍。然而在实际应用中,机载雷达所面临的杂波环境通常是非均匀、非平稳的,难以获取足够数量的均匀训练样本,导致STAP性能严重损失。本文针对小样本、非均匀、非平稳条件
小型化和一体化是导航系统的发展趋势之一。卫星/惯性紧组合导航具有精度高、抗干扰性强和复杂度适中等优点,但在实际应用中,因恶劣天气、复杂地形等影响,会出现系统性能下降、无法持续导航的问题。本文的目标是研究北斗/MEMS-SINS紧组合可持续导航算法及其嵌入式实现方法。首先,研究了基于加速度计和磁力计的姿态角计算原理、捷联惯性导航系统的基本原理和基于联邦滤波的北斗/MEMS-SINS紧组合导航系统的数
随着照明技术的高速发展与革新,草原受到了其周边城镇的光污染,草原夜晚天空的发亮情况有加重加快的趋势,对草原环境产生了破坏。但目前的研究仅局限于城市内部夜空发亮的研究,缺少草原整体性夜空发亮,即草原夜空广域光的研究。同时缺少对草原夜空广域光亮度定量化的研究,缺少草原夜空广域光的发亮机理研究,也缺少对草原夜空广域光亮度计算性的研究。目前研究不能充分的为草原夜空保护提供理论依据和数据支持。因此论文选用草