Meta NLLLB 项目幕后的科学迷踪

近日,本杰明·马瑞(Benjamin Marie)的一篇文章探讨了Meta AI最新推出的项目:No Language Left BehindNLLB)。该项目为200种语言提供了崭新的翻译模式和数据库。可从科学的角度来看,仍有许多方面值得探讨和交流。作者认为Meta AI在这个项目中的声明,其实是具有误导性且站不住脚的。Meta AI发表了一篇科学论文,全面解读和评估NLLB项目。文章声称这个模式比BLEU评估模式提升了44%,是目前为止最为先进的技术。然而,文中却没有给出任何其他确凿的科学证据,来支撑这个声明。本文作者因此产生质疑,展开相关研究,争取给出更具科学性的项目评估结果。

翻译的变身

Meta AI拿NLLB项目的数据和此前20多项研究的数据相比较,认为相较于此前的研究,NLLB有了巨大的进步。然而数据比较的可行性在于比较同类项,而Meta AI却用了两种不同的机器翻译评估模式产生的数据来比较,这样的比较是毫无意义的。

数据的狂欢

Meta AI发表的论文中,包含大量的数据对比,以凸显NLLB的先进性。然而繁杂的数据也掩盖不了比较数据的差异性。这些比较就像是拿西红柿的数量和香蕉的数量去比较,两者质的不同已经决定了量的比较是无法成立的。

有简单的修补方案吗?

幸运的是,仍有可以修补的简单方案——那就是不要对无法比较的数据进行比较。如果机器翻译研究者想要将自己的研究与前人的研究相比较,只需改变自己的评估方式,发表自己的译文即可。这样才能跟前人的翻译用同样的评估标准去进行比较。

结论

Meta AI的这种误导,是机器翻译研究界常见的比较错误。由此,我们应该警惕起来,避免再次陷入这种误导性的声明和研究。但除此之外,NLLB仍然是一项非常惊人的项目,其规模如此之大,能产出多语言的高质量译文,奠定了其在行业发展中的地位。