Meta 最近宣布与联合国教科文组织(UNESCO)合作推出一项新的语言技术伙伴计划,旨在收集多种语言的语音录音和文字记录,以推动未来开放可用的人工智能(AI)发展。这项计划特别关注那些在数字环境中被忽视的少数民族语言。

根据 Meta 的介绍,该计划希望吸引合作伙伴,提供超过10小时的语音录音及其转录内容、丰富的书面文本,以及翻译句子的集合。Meta 希望通过与合作伙伴的共同努力,将这些语言整合到其 AI 语音识别和翻译模型中,最终形成的成果将以开源形式发布。

音频 声波 智能语音

图源备注:图片由AI生成,图片授权服务商Midjourney

截至目前,已确认的合作伙伴包括加拿大北部的努纳武特地区政府,该地区部分居民使用一种被称为因纽特语的语言。Meta 在其博客中表示:“我们的努力特别聚焦于服务不足的语言,以支持联合国教科文组织的工作。最终,我们的目标是创建智能系统,能够理解并回应复杂的人类需求,无论语言或文化背景如何。”

为了配合这一计划,Meta 还将发布一个开放源代码的机器翻译基准,旨在评估语言翻译模型的性能。这个基准由语言学家设计,支持七种语言,并可通过 AI 开发平台 Hugging Face 进行访问和贡献。

Meta 将这两项举措视为慈善行动,但公司也因此将受益于其语音识别和翻译模型的升级。Meta 持续扩展其 AI 助手 Meta AI 支持的语言数量,并测试例如 Instagram Reels 中语音翻译的功能,允许创作者对其语音进行配音和自动同步。

尽管 Meta 在语言处理方面的努力值得关注,但该公司在非英语内容的处理上曾受到不少批评。有报告显示,Facebook 在处理意大利语和西班牙语的 COVID-19虚假信息时,几乎有70% 的内容未被标记,而英语内容的未标记比例仅为29%。此外,泄露的文件显示,阿拉伯语内容常常被错误标记为仇恨言论。Meta 表示,正采取措施改善其翻译和内容审核技术,以应对这些挑战。