基于RNN-Transducer的端到端长时语音识别模型研究及系统实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:a77115280
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学技术的快速发展,人们对人机自由交互的需求日益增大,语音识别技术作为实现人机智能交互的重要技术之一,迅速成为了研究的热点。在深度学习的影响下,端到端语音识别系统在减化语音识别复杂流程的同时,其性能逐渐超过传统算法。但是当前端到端语音识别技术依然面临一些问题与难点:(1)端到端语音识别模型语言建模能力不足;(2)模型对长时语音识别的泛化能力和鲁棒性较差;(3)算法模型参数量大及时间和空间复杂度高。针对以上问题,本文对长时语音识别和语音模型压缩技术展开研究,主要工作如下:1.提出融合语言模型的RNN-Transducer模型。针对端到端语音识别模型无法有效整合语言模型进行联合优化,语言建模能力不足的问题,本文提出了融合语言模型的RNN-Transducer 模型。首先为 RNN-Transducer 预测网络增加语言建模辅助任务,使用多任务学习联合优化方法帮助模型训练。然后利用知识蒸馏算法将外部语言学知识传递给预测网络语言模型,在训练过程中将语言模型集成到RNN-Transducer模型中,进一步提升模型的语言建模能力。经实验证明,本文所提算法可以更好地学习文本信息,并且保证了模型的端到端地训练优化,降低模型字符错误率约1个百分点。2.提出长时音频语音识别算法。针对长时语音识别场景中模型鲁棒性较差的问题,本文提出了长时音频语音识别算法。首先,提出跨句上下文模块用于保留跨句子的历史上下文语义信息,使模型可以更好地学习会话级别的语境信息,提升长时语音识别的性能。然后采用初始化隐层状态的训练方式在训练过程中模拟长时语音训练,提高了模型的识别准确率。经实验表明,本文所提算法在合成长时语音数据上取得了出色的识别准确率,在短句和长句测试集上识别错误率相差不超过1个百分点,有效地提高模型对于长时语音识别场景的泛化能力与鲁棒性。3.提出基于互学习的序列级别知识蒸馏算法。针对语音识别模型参数量大且计算复杂度高的问题,本文提出了基于互学习的序列级别知识蒸馏算法。结合知识蒸馏算法,采用多个不同结构学生模型间的相互学习,引入模型之间的多样性,学习其结构差异性来实现互补,以将老师模型中更多丰富且正确的信息传递给学生模型,进一步提升学生模型的性能。经实验表明,本文所提出的算法可以有效地减少模型参数量及计算复杂度,同时保证语音识别任务的性能,达到了两者较好的平衡。综上所述,本文提出了一种可行、鲁棒、快速的语音识别方法,有效地缓解了端到端模型“语言建模能力不足”、“长时语音识别鲁棒性和泛化能力较差”、“模型参数量大及计算复杂度高”等问题。最后,在本文研究内容的基础上,设计并实现了一个语音识别演示系统。
其他文献
有臭氧型紫外线灯185 nm辐射输出效率直接影响其臭氧产出率.目前我国还没有185 nm紫外线照度计的标准、溯源,没有适合大众使用的成熟统一的185 nm辐射测量方法与测量仪器.本文简述了测量253.7 nm紫外线辐射通量的3种常用方法,验证了Keitz公式测量计算法测量线性紫外线灯辐射通量(辐射功率)的可靠性.采用自行设计的具有创造性的简易适用的测试系统,利用国外185 nm照度计,依据Keitz公式测量计算法测量了不同管径、不同石英玻璃的线性紫外线灯的185 nm紫外辐射参数,并利用动态臭氧测试系统测