机器翻译中的碳排放研究

2021年9月26日,来自马尼帕尔理工学院(Manipal Institute of Technology)的一个四人小组——Mirza Yusuf, Praatibh Surana, Gauri Gupta, Krithika Ramesh——在arXiv上发表论文《遏制你的碳排放:机器翻译中的碳排放基准》(Curb Your Carbon Emissions: Benchmarking Carbon Emissions in Machine Translation)。

这成为机器翻译(MT)一项新的基准,而且该基准与翻译质量关系不大。印度的研究人员使用 CodeCarbon 软件包,对训练 MT 引擎的二氧化碳(CO2)排放进行基准测试,衡量各种语言对的环境(不)友好程度。

论文作者们认为探讨MT的碳效益(carbon efficiency)已是 "当务之急",尽管相对而言,MT并非气候恶化的主要帮凶,气候活动家们也不太可能抵制 MT。但据该论文,语言模型 "需要大量的计算能力和数据来训练,因此导致了大量的碳足迹"。

其中一家MT供应商即是 DeepL。这家总部设在德国的公司在冰岛建立了一个数据中心,以加强其计算能力,他们声称其超级计算机是世界上最大的计算机之一。

研究人员同样评估了六种语言对,以评估训练所需的计算能力;即哪些语言对更耗电,因此也更耗碳。他们使用 CodeCarbon 软件包跟踪训练过程中释放的碳排放,以及 BLEU 分数的提高,以供参考和比较。

研究评估结果显示,法语→德语、英语→德语、德语→法语,三种语言对分别位居碳排放榜首及第二、三位,且远超英语→法语、德语→英语和法语→英语语言对。