Llama 4启动训练 Meta科学家揭秘Llama 3.1训练背后的故事

Meta的科学家Thomas Scialom在播客节目Latent Space中，为我们揭开了Llama3.1的研发秘籍，并提前透露了Llama4的神秘面纱。

Llama3.1的诞生，是参数规模、训练时间与硬件限制的完美平衡。405B的庞大身躯，不是随意的选择，而是Meta向GPT-4o发起的挑战书。尽管硬件的限制让Llama3.1无法在每个家庭的电脑上起舞，但开源社区的力量让一切变得可能。

在Llama3.1的研发过程中，Scialom和他的团队重新审视了Scaling Law。他们发现，模型规模的确是关键，但更重要的是训练数据的总量。Llama3.1选择了增加训练的token数，哪怕这意味着要付出更多的算力。

Llama3.1在架构上并没有翻天覆地的变化，但在数据的规模和质量上，Meta下足了功夫。15T的token海洋，让Llama3.1在知识的深度与广度上都有了质的飞跃。

在数据的选择上，Scialom坚信公开互联网上的文本垃圾太多，真正的金子是合成数据。Llama3.1的后训练过程中，完全没有使用人工书写的答案，而是完全依赖于Llama2生成的合成数据。

模型评估一直是AI领域的难题。Llama3.1在评估与改进上，尝试了多种方法，包括奖励模型和多样化的基准测试。但真正的挑战在于，如何找到能够击溃强大模型的合适prompt。

Meta已经在6月开启了Llama4的训练，而这一次，他们将重点放在了agent技术上。Toolformer等agent工具的开发，预示着Meta在AI领域的新探索。

Llama3.1的开源，不仅是Meta的一次大胆尝试，更是对AI未来的一次深刻思考。随着Llama4的启动，我们有理由相信，Meta将在AI的道路上，继续领跑。让我们一起期待，Llama4和agent技术将如何重新定义AI的未来。

AI新闻资讯