Meta新开源AI语音模型可识别4000多种口头语言

加拿大都市网

2023年5月24日 15:28

【加拿大都市网】Meta创造了一个令人耳目一新的人工智能语言模型，不是“照抄”ChatGPT。这个大规模多语言语音(MMS)项目可以识别4000多种口语，并产生1100多种语言的语音(文本到语音)。与其他大多数公开宣布的人工智能项目一样，Meta将MMS开源，以帮助保护语言的多样性，并鼓励研究人员在其基础上进行研究。

该公司写道：“我们公开分享我们的模型和代码，以便研究界的其他人能够在我们的工作基础上有所发展。通过这项工作，我们希望为保护世界上不可思议的语言多样性做出一点贡献。”

语音识别和文本转语音模型，通常需要对数千小时的音频进行训练，并伴随着转录标签。(标签是机器学习的关键，允许算法正确分类和“理解”数据）。但是对于那些没有在工业化国家广泛使用的语言，其中许多语言在未来几十年内有消失的危机，正如Meta所说，“它们的数据根本不存在”。

Meta使用了一种非常规的方法来收集音频数据：挖掘翻译的宗教文本的音频纪录。“我们转向宗教文本，如《圣经》，这些文本已被翻译成许多不同的语言，其翻译已被广泛研究，用于基于文本的语言翻译研究。这些译本有公开可用的人们用不同语言阅读这些文本的录音。”结合圣经和类似文本的无标签录音，Meta的研究人员将该模型的可用语言增加到4000多种。

它听起来像是一个严重偏向基督教世界观的人工智能模型的配方，但 Meta说情况并非如此。“虽然录音的内容是宗教性的，但我们的分析表明，这并没有使模型偏向于产生更多的宗教语言，”Meta写道，“我们认为这是因为我们使用了连接主义时间分类(CTC)方法，与用于语音识别的大型语言模型(LLM)或序列到序列模型相比，它的约束性要大得多”。此外，尽管大多数宗教录音是由男性演讲者朗读的，但这也没有引入男性偏见，在女性和男性的声音中表现同样出色。

在训练了一个对齐模型以使数据更可用之后，Meta使用了wav2vec 2.0，该公司的“自我监督的语音表示学习”模型，可以在未标记的数据上训练。将非常规的数据源和自我监督的语音模型结合起来，导致了出色的结果。“我们的结果显示，与现有的模型相比，大规模多语言语音模型表现良好，并且覆盖了10倍的语言。”具体来说，Meta将MMS与OpenAI的Whisper进行了比较，结果超过了预期。“我们发现，在大规模多语言语音数据上训练的模型实现了一半的单词错误率，但大规模多语言语音覆盖的语言是11倍。”

Meta提醒其新模型并不完美。该公司写道：“例如语音到文本的模型可能会误写某些单词或短语。根据输出结果，这可能导致冒犯性和/或不准确的语言。我们仍然认为，整个人工智能界的合作对于负责任的人工智能技术的发展至关重要。”

现在，Meta发布MMS的开源研究，它希望它能扭转技术将世界上的语言缩减到最常被大科技公司支持的100种或更少的趋势。它看到了这样一个世界：辅助技术、TTS、甚至VR/AR技术让每个人都能用自己的母语说话和学习。它说：“我们设想一个技术产生相反效果的世界，鼓励人们保持他们的语言活力，因为他们可以通过说自己喜欢的语言来获取信息和使用技术。”

图片：美联社

T09