在 Meta 正在进行的人工智能版权案件之一 Kadrey v. Meta 中,法院公布的内部消息揭示了该公司在开发 Llama3 时的激烈竞争和潜在版权问题。Meta的高层领导和研究人员全力以赴,力图在AI模型开发中超越 OpenAI 和 Anthropic 等公司,并将其 GPT-4 和 Claude 视为努力的黄金标准。
激烈的竞争心态:Meta誓言打败OpenAI
据Meta生成AI副总裁 Ahmad Al-Dahle 透露,该公司在开发 Llama3 时的目标明确指向 GPT-4,并决心通过高效的硬件支持,如64k GPU,在AI竞争中占得先机。Al-Dahle在一条内部信息中写道:“我们将推出64k GPU!我们需要学习如何建立前沿并赢得这场比赛。”
然而,尽管Meta发布了开放源代码的AI模型,Meta的高管们更专注于打败那些通常不会公开其模型权重的竞争对手,如 OpenAI 和 Anthropic,而是将它们的模型置于API之下,形成了强烈的竞争焦点。
对Mistral的轻视与内部焦虑
法国人工智能初创公司 Mistral 是Meta的最大公开竞争对手之一,但Meta高层对其显然不屑一顾。在一条信息中,Al-Dahle称:“米斯特拉尔对我们来说微不足道,我们应该能够做得更好。” 这也暴露了Meta内部对AI竞争的极度焦虑,以及他们在行业中的强烈企图心。
同时,Meta的AI领导们在内部交流中频繁谈到他们如何积极获取数据以训练 Llama3,且某些信息表明,高管们对于 Llama3 充满期待,一位高管甚至在信息中提到:“Llama3才是我真正关心的一切。”
版权问题与法律挑战
随着Meta在开发Llama3的过程中遭遇的激烈竞争,其使用的训练数据也开始引发法律争议。检察官指控,Meta的高管在激烈追赶AI开发进度时,可能偷工减料并使用了受版权保护的书籍作为训练数据。
在一条信息中,研究员 Hugo Touvron 透露,Meta曾在 Llama2 训练中使用的数据集组合“很糟糕”,并提出通过改进数据集来优化 Llama3。他们还讨论了扫清使用 LibGen 数据集的障碍,这个数据集包含了如 Cengage Learning、Macmillan Learning、McGraw Hill 和 Pearson Education 等出版商的版权作品。
尽管存在版权问题,Meta CEO 马克·扎克伯格 强调,Meta将继续推动 Llama 模型的进步,并缩小与其他封闭模型如 OpenAI 和 Google 之间的差距。
Meta的未来展望与Llama3的市场地位
2024年7月,扎克伯格表示, Llama3 在性能上已与最先进的AI模型相媲美,并在某些领域处于领先地位。他预计,从2025年起,Meta的 Llama 系列将成为业内最先进的AI模型。然而,Llama3 的发布仍需应对不断加剧的版权诉讼,特别是它的训练数据引发的法律审查。