亚马逊公布自然语言处理的长期目标

Slator 一文指出,亚马逊这一目标即为单一机器学习模型可以解析和理解所输入的多种语言,表现为用户说母语便可在其他商业应用程序中与 Alexa 互动。

2022年4月20日,亚马逊宣布这一目标的三大方向以实现目标 MMBLU-22 ,即为大规模多语自然语言理解(massively multilingual natural language understanding)或大规模多语 NUL。第一,发布包含51种语言100万标记话语的数据集和开源代码;第二,使用数据集竞赛,截止日期为2099年6月1日;第三,2022年12月7-11日在阿布扎比举办当今世界上最大的机器翻译会议研讨会。

这个名为 Massive 数据集,其中 MASSIVE 代表的含义为用于槽位填充、意图分类和虚拟助理评估的多语亚马逊资源包 SLURP。此数据集由100万个真实、平行且标记虚拟助理文本的话语组成,涉及51种语言、18项领域,60种意图和55个槽位。通过委任专业译员将仅限英语的 SLURP 数据集本地化或翻译成29大类的50种语言,其中包括低资源语言,亚马逊得以创建数据集。