端到端语音翻译研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ptcptsu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音翻译(Speech-to-Text Translation,S2T)是指让机器完成从源语言的语音信号自动翻译生成目标语言的文本的过程,当前主流的做法是将语音识别和机器翻译模块级联。由于语音识别、机器翻译和语音翻译本质上都是从一个序列转换为另一个序列的任务,且语音识别和机器翻译都可以使用端到端的方式建模,所以研究人员开始了端到端语音翻译的研究。因为将语音识别和机器翻译的两个步骤的转换直接使用一个模型建模,增加了输入序列和输出序列之间的转换复杂性,因此可能使模型更难训练或需要更多的训练数据。在此背景下,本文分别对端到端语音翻译的模型结构和训练方法进行了探索。首先,本文基于卷积神经网络和Transformer网络构建了一个新的端到端语音翻译模型。利用卷积神经网络中卷积的不变性来缓解语音信号的多变性。一个句子的语音信号提取的语音特征通常是成百到上千帧的,且多个帧表示一个字。Transformer网络中的自注意力机制可以用来兼顾语音特征的帧对其附近的帧之间和距离很远的帧之间的依赖关系,而且这个网络结构相对于循环神经网络拥有并行计算的能力,所以在语音翻译的任务上很有优势。通过在一个面向真实场景的语料库上的实验,可以发现本文提出的端到端语音翻译模型性能明显优于基于循环神经网络的模型。此外,本文提出一种对抗训练的方式来优化端到端语音翻译模型,这个方法本质是一个对抗生成网络,包含一个生成器和一个鉴别器。鉴别器用于判断输入的目标语言的句子是来自真实的文本还是生成器的输出。生成器是一个端到端语音翻译模型,通过学习使其能够生成尽可能真实的目标语言的翻译文本,从而达到欺骗鉴别器的效果。在对抗训练的过程中,鉴别器和生成器逐步地相互挑战和学习,最终得到一个性能更好的端到端语音翻译模型。由于鉴别器的学习是无监督的,所以可以在鉴别器的学习过程中利用海量的目标语言的单语文本。通过实验表明,我们提出的这种方法可以明显提升端到端语音翻译模型。
其他文献
<正>医学科技进步是医院技术和服务质量提高的主动力之一,也是建设现代化医院并增强竞争力的主要内容.笔者从本院开展中西医结合科研管理工作的实际中,认识到要搞好医院科研
为了解决实际工程中风积沙路堤的压实与压实度检测等技术问题,以腾格里沙漠穿沙公路为依托工程,通过室内试验、现场试验路分析了振动压实方式、压实遍数等因素对风积沙路堤压
【正】一 1.1 本文讨论下列句式: A<sub>1</sub> 事实就是事实,(谁也不能否认)。 A<sub>2</sub> 爸爸是好爸爸,(就是管得太严)。 A<sub>3</sub> 镜子是镜子,(但照人不清楚)。
近年来林地流转呈加速倾向,各种公司、企业、林业大户在与林农的合同签订中,往往能以极低价格转入林地使用权。随着履约过程中信息的逐渐透明,利益受损的林农为避免过度损害,
<正>音乐电磁治疗仪,是在我院中风康复音乐电疗机研制成功的基础上,应用音频调制原理, 集音乐、音乐电疗、音乐磁疗法于一体的一种综合物理康复治疗仪。现将研制与应用情况报
会议
土地变更调查是更新过去土地利用数据信息的必经工作,通过调查分析本年度土地利用情况的变化,实现对土地利用数据信息的完善和更新,进一步提高地籍管理工作的效率,以此为我国