最近,开放源代码倡议组织(OSI)发布了一项新定义,明确什么才算是真正的 “开源” 人工智能。这一新标准引起了科技巨头们的关注,尤其是 Meta 的 Llama 模型,因为它并不符合这些规则。OSI 一直是开放源代码软件的行业标准制定者,但在 AI 系统中,有一些传统许可证未能覆盖的元素,比如模型训练数据。

根据 OSI 的新定义,任何被认为是真正开放源代码的 AI 系统必须提供三样东西:首先是有关训练 AI 所用数据的详细信息,以便他人能够理解并重现这些结果;其次是用于构建和运行 AI 的完整代码;最后,还需要提供训练中的设置和权重,这些对 AI 的结果产生影响。

大模型 代码 互联网

图源备注:图片由AI生成,图片授权服务商Midjourney

这一规定直接挑战了 Meta 的 Llama 模型。尽管 Llama 可以公开下载和使用,但它在商业用途上有一定的限制,并且没有提供训练数据,因此未能满足 OSI 对于开放的标准。Meta 的发言人 Faith Eischen 表示,他们与 OSI 在许多方面是有共识的,但对于这个定义存在不同意见。她指出,定义 “开放源代码 AI” 并不容易,因为传统的定义未能涵盖当今快速发展的 AI 模型的复杂性。

OSI 的执行董事 Stefano Maffulli 表示,他们花了两年的时间,与全球的专家共同制定这一标准。他们与学术界、机器学习和自然语言处理领域的专家进行了深入交流,也与内容创作者合作,力求做到全面。

Meta 限制训练数据访问的理由主要是出于安全考虑,但批评者则认为其背后可能是为了降低法律责任和保护竞争优势。许多 AI 模型的训练数据中几乎肯定包含了版权材料。现在,针对 Meta、OpenAI 等公司的诉讼层出不穷,原告们只能依靠间接证据来证明他们的作品被抓取。

同时,Maffulli 认为当前的情况与过去相似。他回忆起1990年代微软对待开源的态度,认为 Meta 正在以相似的理由将其技术封锁。对他们而言,训练数据就是 “秘密武器”。

划重点:

🌐 OSI 发布的新定义要求 AI 系统提供训练数据、代码和设置,推动 “开放 AI” 标准化。

🦙 Meta 的 Llama 模型因未能提供训练数据而被认为不符合开放源代码标准,面临行业质疑。

⚖️ 法律纠纷加剧,Meta 及其他 AI 公司因使用版权材料而受到多方诉讼,法律责任引发关注。