纽约大学研究人员在今年4月发表的一篇论文中进一步揭示了语言中的性别偏见:研究团队使用工智能分析了6300亿个单词的语料库,发现People/Person的概念并非一个性别中立的概念,而是更倾向于指代男性,换言之,在大部分场合,“People=Men”,即“人=男人”。
论文表示,这实际上是人工智能复制人类语言中业已存在的性别偏见的结果,而人们对单词嵌入的偏爱可能会影响到下游大量使用单词嵌入的人工智能应用,包括机器翻译。论文还指出,谷歌翻译近年来已尝试解决与性别偏见有关的问题,但这些努力仅关注显性性别语言,并未考虑到“人”等看似中性的词汇所隐含的性别偏见。
此项研究有可能进一步揭示机器翻译与用于开发机器翻译模型的语料库中的性别偏见。