您的位置:首页 > 大数据 > 人工智能

Google AI工程师介绍Translatotron,一种端到端的直接语音翻译模型

2019-05-18 00:00 2371 查看

就在两天前,Google AI的研究团队推出了Translatotron,一种端到端的直接语音翻译模型。在他们的研究论文“Direct speech-to-speech translation with a sequence-to-sequence model”中他们Translatotron认识到该模型在两个西班牙语到英语数据集上实现了高翻译质量。

 

语音转换系统通常分为三个独立的组件:

  • 自动语音识别:用于将源语音转录为文本。
  • 机器翻译:用于将转录的文本翻译成目标语言
  • 文本到语音合成(TTS):用于从翻译文本生成目标语言的语音。

将任务划分为此类系统已成功运作,并为许多商业语音转语音翻译产品提供动力,包括谷歌翻译。

2016年,大多数工程师和研究人员意识到,当研究人员使用单个序列到序列模型进行语音到文本翻译时,对语音翻译的端到端模型的需求。

2017年,Google AI团队证明此类端到端模型的性能优于级联模型。最近,已经提出了许多用于改进端到端语音到文本翻译模型的方法。

Translatotron证明单个序列到序列模型可以直接将语音从一种语言翻译成另一种语言。此外,它不依赖于任何一种语言的中间文本表示,如级联系统所要求的那样。它基于序列到序列网络,它将源光谱图作为输入,然后生成目标语言中翻译内容的光谱图。

Translatotron还使用了两个经过单独训练的组件:一个将输出频谱转换为时域波形的神经声码器和一个扬声器编码器,用于在合成的翻译语音中保持源扬声器的声音。

序列到序列模型使用多任务目标来预测源和目标转录本,并在训练期间生成目标谱图。但在推理期间,没有使用没有成绩单或其他中间文本表示。

Google AI的工程师通过测量BLEU(双语评估替补)评分来验证Translatotron的翻译质量,该评分是通过语音识别系统转录的文本计算的。

结果确实落后于传统的级联系统,但工程师已经设法证明了端到端直接语音到语音转换的可行性。

Translatotron通过结合扬声器编码器网络,可以在翻译的语音中保留原始扬声器的声音特征。这使得翻译的语音听起来自然而且不那么刺耳。根据Google AI团队的说法,Translatotron提供了比基线级联模型更准确的翻译,同时保留了原始扬声器的声音特征。

工程师得出结论,Translatotron是第一个端到端模型,可以直接将一种语言的语音翻译成另一种语言的语音,并可以在翻译的语音中保留源语音的声音。

要了解有关此新闻的更多信息,请查看Google AI的博文

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  Translatotron
相关文章推荐