Meta尝试为机器翻译的评价制定更加统一的标准

尽管机器翻译的自动评估标准,如BLEU等使用十分广泛,但人为评估仍然是评估的金牌标准。人类评估员在评估机器翻译输出的内容时,标准不尽相同。这些标准与评估员自身的语言技能和翻译质量的期待值息息相关。因此,为了解决这个问题,Meta AI研究员在2022年5月发表的文章中,提议使用新颖的标准,即XSTS标准,更加关注意义等值和跨语言标准。

该标准大致可以分为两个方面。一、恰当大于流畅(Adequacy Over Fluency)。新的标准更加关注翻译得是否恰当,而非语言的流畅性。二、跨语言的连贯性(Cross-Lingual Consistency),即使用多种语言通用的评价标准。如此一来,有了更加统一的可视化的标准,评价的结果更具连贯性。