Facebook AI开源新的多语言自动语音识别数据集

2021年1月22日,Facebook AI发布了多语种LibriSpeech(MLS),这是一个新的推进自动语音识别(ASR)研究的大规模开源数据集。

据介绍MLS的官方博客,其英文数据集比原来的LibriSpeech大了约47倍,这个语料库包含了1000小时的英语阅读量。

与LibriSpeech一样,MLS的内容也来自LibriVox项目的公共领域有声读物,该项目提供了广泛的音频,并允许Facebook AI以非限制性许可的方式发布数据。

Facebook AI博客文章指出,虽然存在非英语语言的数据集和基准,但 "它们通常相对较小或分散在不同的地方,并且在开放、允许的许可证下基本不可用。"