Google 研究200多种语言的“大规模多语言机器翻译”

继2019年7月发表的论文《massively multilingual” MT model》之后,谷歌于2022年1月发表论文《Towards the Next 1,000 Languages in Multilingual Machine Translation》,再次提出了通用翻译的问题,试图通过训练更多平行数据来扩展大规模多语言模型。除了收集和管理这么多语言对的平行数据所涉及的高昂成本外,这种解决方案通常并不适用许多数据有限的低资源语言。

论文作者写道:"除了资源最丰富的100种语言之外,双语数据是一种稀缺资源,往往仅限于垂直领域的宗教文本。为了建立和训练一个覆盖200多种语言的MT模型,谷歌研究人员需根据语言的可用数据,采用监督和自我监督的混合目标。(来源