Metaの科学者Thomas Scialomは、ポッドキャスト番組「Latent Space」で、Llama 3.1の開発秘話を明かし、Llama 4のベールを少しだけ取り除きました。

Llama 3.1の誕生は、パラメータ規模、トレーニング時間、ハードウェアの制約の完璧なバランスの上に成り立っています。4050億という膨大なパラメータ数は、単なる偶然ではなく、MetaがGPT-4oへの挑戦状と言えるでしょう。ハードウェアの制約により、Llama 3.1が全ての家庭のコンピュータで動くわけではありませんが、オープンソースコミュニティの力によって、その可能性が広がっています。

Llama 3.1の開発において、Scialomと彼のチームはスケーリング則を見直しました。彼らは、モデルの規模が確かに重要である一方、トレーニングデータの総量も同様に重要であることを発見しました。Llama 3.1は、より多くの計算能力が必要になることを承知の上で、トレーニングトークンの数を増やす道を選びました。

image.png

Llama 3.1はアーキテクチャに劇的な変化はありませんが、データの規模と質にはMetaが注力しました。15Tトークンの膨大なデータにより、Llama 3.1は知識の深さと広さの両面で飛躍的な進歩を遂げました。

データの選択において、Scialomは公開インターネット上のテキストにはゴミが多いと信じ、真の価値は合成データにあると考えています。Llama 3.1の後期トレーニングでは、人間が書いた回答は一切使用せず、Llama 2で生成された合成データに完全に依存しました。

モデルの評価はAI分野における長年の課題です。Llama 3.1では、報酬モデルや多様なベンチマークテストなど、様々な方法を試みて評価と改善を行いました。しかし、真の課題は、強力なモデルを打ち負かすことができる適切なプロンプトを見つけることです。

Metaは6月にLlama 4のトレーニングを開始しており、今回はエージェント技術に重点を置いています。Toolformerなどのエージェントツールの開発は、MetaによるAI分野における新たな探求を示唆しています。

Llama 3.1のオープンソース化は、Metaの大胆な試みであると同時に、AIの未来に対する深い考察でもあります。Llama 4の開始に伴い、MetaがAI分野で引き続き先頭を走ることは間違いありません。Llama 4とエージェント技術がどのようにAIの未来を再定義するのか、共に期待しましょう。