Meta社が現在係争中のAI著作権訴訟の一つ、Kadrey v. Metaにおいて、裁判所に提出された内部情報が、Llama3開発における激しい競争と潜在的な著作権問題を明らかにしました。Metaの上層部と研究者たちは、OpenAIやAnthropicといった企業を凌駕しようと全力を尽くし、GPT-4とClaudeを努力の目標としていました。
激しい競争意識:Meta社はOpenAIを打ち負かすことを誓う
Meta社生成AI担当副社長Ahmad Al-Dahle氏によると、Llama3開発の目標はGPT-4を明確に目指しており、64k GPUなどの効率的なハードウェアサポートを通じてAI競争で優位に立つことを決意していました。Al-Dahle氏は内部メッセージで「64k GPUを導入します!最先端を築き、この競争に勝つ方法を学ぶ必要があります。」と書いています。
しかし、Meta社はオープンソースのAIモデルを公開していますが、Meta社の幹部は、通常はモデルの重みを公開しないOpenAIやAnthropicなどの競合他社(API経由でモデルを提供)を打ち負かすことに重点を置いており、強い競争意識が見て取れます。
Mistral社への軽視と内部の不安
フランスのAIスタートアップ企業Mistral社は、Meta社の最大の公開競争相手の一つですが、Meta社の幹部は明らかにそれを軽視していました。Al-Dahle氏はメッセージの中で「Mistral社は取るに足らない存在だ。我々はもっとうまくできるはずだ。」と述べており、AI競争に対するMeta社内部の極度の不安と、業界における強い野心が露呈しています。
同時に、Meta社のAIリーダーたちは内部コミュニケーションで、Llama3のトレーニングに積極的にデータを取得する方法を頻繁に話し合っていました。そして、ある情報によると、幹部たちはLlama3に大きな期待を寄せており、ある幹部はメッセージの中で「Llama3こそが私が本当に気にしている全てだ。」と述べています。
著作権問題と法的課題
Llama3開発における激しい競争の中で、Meta社が使用したトレーニングデータが法的論争を引き起こし始めています。検察官は、Meta社の幹部がAI開発の進捗を急ぐあまり、著作権で保護された書籍をトレーニングデータとして不正に使用した可能性があると主張しています。
メッセージの中で、研究者のHugo Touvron氏は、Llama2のトレーニングで使用されたデータセットの組み合わせが「ひどい」ものであり、データセットの改善によってLlama3を最適化する必要があると述べています。彼らはまた、Cengage Learning、Macmillan Learning、McGraw Hill、Pearson Educationなどの出版社の著作権作品を含むLibGenデータセットの使用に関する障害を取り除くことについても議論しました。
著作権問題が存在するにもかかわらず、Meta社のCEOマーク・ザッカーバーグ氏は、Meta社はLlamaモデルの進歩を続け、OpenAIやGoogleなどの閉鎖型モデルとの差を縮小すると強調しました。
Meta社の将来展望とLlama3の市場地位
2024年7月、ザッカーバーグ氏は、Llama3のパフォーマンスが最先端のAIモデルと同等か、あるいは特定の分野ではそれを上回っていると述べ、2025年以降、Meta社のLlamaシリーズが業界最先端のAIモデルになると予測しました。しかし、Llama3のリリースは、特にトレーニングデータに関する法的審査が原因で、激化している著作権訴訟に対処する必要があります。