谷歌推出更新版的 S2ST 模型

当谷歌在2019年首次宣布开发Translatotron时,这款语音到语音的翻译程序因其能够产生目标语言语音而受到称赞,且该语音听起来像是最初说话者的声音,而非计算机生成的声音(如Siri或Alexa的声音)。程序保留原说话者声音的能力被认为是一个不可思议的进步,尽管该技术存在一个问题:

一些人认为这项技术可能会被滥用,担心它会被用来制造“超级骗子”——除了保留原始语音之外,用户还可以生成目标语言的语音来匹配另一个人的语音,从而允许恶意用户来造假。

谷歌最近声称已在其程序的更新版本Translatotron 2中解决了该问题,该程序只允许用户使用原始说话者的声音进行翻译。谷歌还称,Translatotron 2在语音的自然度和翻译的实际质量方面都优于该程序的原始版本。