Meta的科学家Thomas Scialom在播客节目Latent Space中,为我们揭开了Llama3.1的研发秘籍,并提前透露了Llama4的神秘面纱。

Llama3.1的诞生,是参数规模、训练时间与硬件限制的完美平衡。405B的庞大身躯,不是随意的选择,而是Meta向GPT-4o发起的挑战书。尽管硬件的限制让Llama3.1无法在每个家庭的电脑上起舞,但开源社区的力量让一切变得可能。

在Llama3.1的研发过程中,Scialom和他的团队重新审视了Scaling Law。他们发现,模型规模的确是关键,但更重要的是训练数据的总量。Llama3.1选择了增加训练的token数,哪怕这意味着要付出更多的算力。

image.png

Llama3.1在架构上并没有翻天覆地的变化,但在数据的规模和质量上,Meta下足了功夫。15T的token海洋,让Llama3.1在知识的深度与广度上都有了质的飞跃。

在数据的选择上,Scialom坚信公开互联网上的文本垃圾太多,真正的金子是合成数据。Llama3.1的后训练过程中,完全没有使用人工书写的答案,而是完全依赖于Llama2生成的合成数据。

模型评估一直是AI领域的难题。Llama3.1在评估与改进上,尝试了多种方法,包括奖励模型和多样化的基准测试。但真正的挑战在于,如何找到能够击溃强大模型的合适prompt。

Meta已经在6月开启了Llama4的训练,而这一次,他们将重点放在了agent技术上。Toolformer等agent工具的开发,预示着Meta在AI领域的新探索。

Llama3.1的开源,不仅是Meta的一次大胆尝试,更是对AI未来的一次深刻思考。随着Llama4的启动,我们有理由相信,Meta将在AI的道路上,继续领跑。让我们一起期待,Llama4和agent技术将如何重新定义AI的未来。