语音到语音翻译(S2ST)是机器翻译(MT)技术中极具挑战性的领域。
谷歌是该领域活跃的参与者。谷歌在2019年推出了Translatotron S2ST系统, 2021年7月又推出了第二个版本,Translatotron 2[https://arxiv.org/pdf/2107.08661v5.pdf],而在2023 年5月27日发表的一篇论文中,谷歌研究实验室DeepMind的研究人员宣布了直接 S2ST 模型的第三次迭代,即Translatotron 3。
Translatotron 3是其前身Translatotron 2的增强版,据研究人员称,Translatotron 2已经提供了卓越的翻译质量、语音鲁棒性和语音自然度,而通过第三次迭代,模型已经实现了“第一个完全无监督直接语音到语音翻译的端对端模型”(the first fully unsupervised end-to-end model for direct speech-to-speech translation)。
传统上的S2ST通过自动语音识别 + 机器翻译 + 文本到语音合成的级联方法来解决,但Translatotron 3依赖一种新颖的端对端架构,直接将源语言语音映射到目标语言,而不依赖中间文本表示。
因此,经18.14 BLEU点的改进衡量,Translatotron 3的性能优于级联同类产品。
除了提高准确性,事实证明,端对端的方法也能有效保留副语言和非语言信息。因为它将源语音直接链接到目标语言,所以能成功传输输入语音的固有特征以及源语言说话人的风格和语音自然度。
研究人员称,Translatotron 3还可以捕获其他非语言信息的痕迹,如停顿、语速、语调等。后者有可能在该领域建立新标准,因为S2S翻译可以捕获含义和说话者的细微差别。无监督训练的发展可能会对未来如何训练类似的S2ST模型产生有趣的影响。