脸书通过无文本 NLP 实现真正语音翻译

Facebook正在研究自己的方法,以实现真正的语音(到语音)翻译(S2ST):他们从一开始就取消了文本翻译的步骤,只用音频。

如前所述,常见的S2ST流程包括自动语音识别(ASR)、转录、文本机器翻译(MT)和文本到语音合成为目标语言。

虽然谷歌一直在努力通过Translatotron(Google在2019年春天首次公开的项目)消除文本-机器翻译这一步骤,苹果也一直在进行类似的探索,尽管是通过更内省的方式。

正如苹果的科学家所指出,直到最近,使用文本-机器翻译的步骤仍是唯一可行的方法;任何的进展绝大部分都要归功于ASR和MT的改进(并受到其局限性的阻碍)。

所有这些先前的技术仍然依赖于文本,不过Facebook认为他们的新模型 “突破”了这一点。