Jun 26, 2023

字节跳动推出PolyVoice：语音到语音翻译的语言模型

字节跳动正凭借新提出的语言模型框架PolyVoice进军语音到语音翻译（speech to speech translation，简称S2ST) 领域。

2023年6月13日的研究论文显示，字节跳动使用仅解码（decoder-only）框架来实现直接的语音翻译，这与语音建模中传统的两步编码器-解码器（encoder-decoder）框架不同，无需中间表示即可将源语言翻译成目标语言，是简化翻译过程的尝试。

PolyVoice由两个模块组成，一是Speech-to-Unit（S2UT）翻译模块，负责将源语言语音的离散单元转换为目标语言语音的离散单元；一是Unit-to-Speech（U2S）合成模块，确保在保留源语言说话人风格的同时合成目标语言语音。

从全球通信的角度来看，PolyVoice最显著的优点在于它对非书面语言的支持能力，可以为以口头语言为主的社区创造新的交流视角。

此外，PolyVoice的高级音频语言模型可以保留源语言说话人的声音和风格，使翻译感觉更加自然和个性化。

从建模的角度来看，创新的仅解码器模型会对整个语音翻译过程产生持久影响，消除传统建模相关的各种普遍问题，比如错误传播、延迟、副语言信息丢失等。

Yolanda

一个译员。

Read This