论文部分内容阅读
语音翻译(Speech-to-Text Translation,S2T)是指让机器完成从源语言的语音信号自动翻译生成目标语言的文本的过程,当前主流的做法是将语音识别和机器翻译模块级联。由于语音识别、机器翻译和语音翻译本质上都是从一个序列转换为另一个序列的任务,且语音识别和机器翻译都可以使用端到端的方式建模,所以研究人员开始了端到端语音翻译的研究。因为将语音识别和机器翻译的两个步骤的转换直接使用一个模型建模,增加了输入序列和输出序列之间的转换复杂性,因此可能使模型更难训练或需要更多的训练数据。在此背景下,本文分别对端到端语音翻译的模型结构和训练方法进行了探索。首先,本文基于卷积神经网络和Transformer网络构建了一个新的端到端语音翻译模型。利用卷积神经网络中卷积的不变性来缓解语音信号的多变性。一个句子的语音信号提取的语音特征通常是成百到上千帧的,且多个帧表示一个字。Transformer网络中的自注意力机制可以用来兼顾语音特征的帧对其附近的帧之间和距离很远的帧之间的依赖关系,而且这个网络结构相对于循环神经网络拥有并行计算的能力,所以在语音翻译的任务上很有优势。通过在一个面向真实场景的语料库上的实验,可以发现本文提出的端到端语音翻译模型性能明显优于基于循环神经网络的模型。此外,本文提出一种对抗训练的方式来优化端到端语音翻译模型,这个方法本质是一个对抗生成网络,包含一个生成器和一个鉴别器。鉴别器用于判断输入的目标语言的句子是来自真实的文本还是生成器的输出。生成器是一个端到端语音翻译模型,通过学习使其能够生成尽可能真实的目标语言的翻译文本,从而达到欺骗鉴别器的效果。在对抗训练的过程中,鉴别器和生成器逐步地相互挑战和学习,最终得到一个性能更好的端到端语音翻译模型。由于鉴别器的学习是无监督的,所以可以在鉴别器的学习过程中利用海量的目标语言的单语文本。通过实验表明,我们提出的这种方法可以明显提升端到端语音翻译模型。