过分追求BLEU得分导致机译结果出现性别偏见

顶级机器翻译(MT)研究人员最近的一篇论文揭示,定向搜索(beam search)虽然是一种非常有效的提高BLEU(bilingual evaluation understudy,即双语替换评测,是用于评估自然语言的字句用机器翻译出来的品质的一种演算法)得分的方式,却会导致极高的性别代词错误率。

这篇发表于2020年11月的论文《机器翻译中的解码和多样性》(Decoding and Diversity in Machine Translation)是由卡耐基梅隆大学的Graham Neubig、Nicholas Roberts和Zachary C. Lipton与亚马逊机器学习科学家Davis Liang合作完成。