Google AI工程师介绍Translatotron,一种端到端的直接语音翻译模型
就在两天前,Google AI的研究团队推出了Translatotron,一种端到端的直接语音翻译模型。在他们的研究论文“Direct speech-to-speech translation with a sequence-to-sequence model”中他们Translatotron认识到该模型在两个西班牙语到英语数据集上实现了高翻译质量。
语音转换系统通常分为三个独立的组件:
- 自动语音识别:用于将源语音转录为文本。
- 机器翻译:用于将转录的文本翻译成目标语言
- 文本到语音合成(TTS):用于从翻译文本生成目标语言的语音。
将任务划分为此类系统已成功运作,并为许多商业语音转语音翻译产品提供动力,包括谷歌翻译。
2016年,大多数工程师和研究人员意识到,当研究人员使用单个序列到序列模型进行语音到文本翻译时,对语音翻译的端到端模型的需求。
2017年,Google AI团队证明此类端到端模型的性能优于级联模型。最近,已经提出了许多用于改进端到端语音到文本翻译模型的方法。
Translatotron证明单个序列到序列模型可以直接将语音从一种语言翻译成另一种语言。此外,它不依赖于任何一种语言的中间文本表示,如级联系统所要求的那样。它基于序列到序列网络,它将源光谱图作为输入,然后生成目标语言中翻译内容的光谱图。
Translatotron还使用了两个经过单独训练的组件:一个将输出频谱转换为时域波形的神经声码器和一个扬声器编码器,用于在合成的翻译语音中保持源扬声器的声音。
序列到序列模型使用多任务目标来预测源和目标转录本,并在训练期间生成目标谱图。但在推理期间,没有使用没有成绩单或其他中间文本表示。
Google AI的工程师通过测量BLEU(双语评估替补)评分来验证Translatotron的翻译质量,该评分是通过语音识别系统转录的文本计算的。
结果确实落后于传统的级联系统,但工程师已经设法证明了端到端直接语音到语音转换的可行性。
Translatotron通过结合扬声器编码器网络,可以在翻译的语音中保留原始扬声器的声音特征。这使得翻译的语音听起来自然而且不那么刺耳。根据Google AI团队的说法,Translatotron提供了比基线级联模型更准确的翻译,同时保留了原始扬声器的声音特征。
工程师得出结论,Translatotron是第一个端到端模型,可以直接将一种语言的语音翻译成另一种语言的语音,并可以在翻译的语音中保留源语音的声音。
要了解有关此新闻的更多信息,请查看Google AI的博文。
- 在阿里AI实验室做NLP高级算法工程师是一种什么样的体验?
- Google的AI翻译正在接近人类的水平:
- 介绍一种很棒的wince驱动调试方法——在wince应用程序中直接访问硬件
- 神经网络机器翻译模型介绍-总结
- TensorRT加速 ——NVIDIA终端AI芯片加速用,可以直接利用caffe或TensorFlow生成的模型来predict(inference)
- Google AI骗过了Google,工程师竟无计可施?
- BITMAIN猎头渠道招聘-语音识别声学模型算法工程师
- 实战 | 深度学习轻松学:如何用可视化界面来部署深度学习模型 转载 2017年12月27日 00:00:00 109 翻译 | AI科技大本营 参与 | 王赫 上个月,我有幸结识了 DeepCogn
- 跟Google工程师学前端是怎样一种体验?
- 神经网络机器翻译模型介绍
- 【翻译/介绍】jump Consistent hash:零内存消耗,均匀快速简洁,来自Google
- Google AI骗过了Google,工程师竟无计可施?
- 神经网络机器翻译模型介绍-GNMT
- [翻译] CSS3弹性盒模型布局模块 (aka Flex Box)介绍和demo/测试用例
- 现在介绍一种使用资源文件,将dll、ocx打包进exe,点击直接注册的例子:
- [小技巧]使用google指令直接翻译单词和查询汇率
- AI做不了“真”3D图像?试试Google的新生成模型
- 介绍一种很棒的wince驱动调试方法——在wince应用程序中直接访问硬件(作者:gooogleman)
- 保存Google、Bing翻译的语音
- 【腾讯TMQ】【AI专栏】语音合成系统评测介绍