在人工智能快速发展的今天,一个国际研究团队正在为欧洲AI语言模型的发展铺平道路。他们推出了名为MOSEL(Massive Open-source compliant Speech data for European Languages)的项目,为欧盟 24 种官方语言编制了一个全面的开源语音数据集。这一举措旨在推动欧洲开放AI语言模型的发展,挑战目前由英语数据集和大型科技公司专有系统主导的局面。
MOSEL项目汇集了来自 18 个不同来源的语音数据,包括CommonVoice、LibriSpeech和VoxPopuli等知名项目。这个庞大的数据库包含了带转录的语音录音和未标记的音频数据,其中尤为珍贵的是505, 000 小时的带转录数据。
然而,数据在各种语言间的分布极不均衡。英语拥有超过437, 000 小时的标记数据,而马耳他语或爱尔兰语等语言仅有几小时的数据。为了改善资源匮乏语言的数据状况,研究团队采用了创新方法:利用OpenAI的Whisper AI模型,自动转录了额外441, 000 小时的未标记音频数据。
研究团队解释道,尽管自动转录并非完美,但它能为那些缺乏人工转录数据的语言提供大量训练材料。这些生成的转录文本以知识共享CC-BY许可发布,允许在注明出处的情况下自由使用。
自动转录的挑战在马耳他语的案例中尤为明显。Whisper模型在处理马耳他语时的词错误率超过80%,意味着平均每五个词中就有四个被错误识别。这凸显了某些语言在自动处理方面仍面临的巨大挑战。
尽管如此,研究团队认为这些自动转录可以作为进一步改进的起点。他们计划为代表性不足的语言收集更多数据,不断完善MOSEL数据库。
MOSEL项目的整个数据集已在GitHub上免费提供,旨在为研究人员和开发者提供便捷的欧洲语言语音数据访问渠道。这一开放共享的举措,不仅体现了科研界的合作精神,也为欧洲AI语言模型的发展注入了新的活力。
MOSEL项目的意义远不止于数据本身。它代表了欧洲在AI领域追求技术自主的努力,有望推动更多元化、更具包容性的AI语言模型发展。通过提供多语言的开源数据,MOSEL为小语种在AI时代的保护和发展提供了宝贵资源,有助于减少AI技术在语言处理上的偏见和不平等。
随着MOSEL数据库的不断完善和扩展,我们可以期待看到更多基于欧洲语言的AI应用和服务。这不仅将推动欧洲数字经济的发展,还将为全球AI语言技术的多样性做出重要贡献。