在人工智能的世界里,开源与闭源的较量从未停歇。而今,Meta AI的Llama3.1模型的发布,似乎为这场较量画上了分水岭。这不仅仅是一个模型的发布,更是开源AI走向成熟的标志,预示着一个全新的时代即将到来。
Llama3.1是由Meta AI团队开发的新一代大型语言模型。在150多个基准测试中,其405B参数版本的表现不仅追平了现有的最先进模型GPT-4o和Claude3.5Sonnet,更是在某些方面实现了超越。这一成就标志着开源AI模型首次在性能上与闭源模型并驾齐驱。
为了训练Llama3.1405B模型,Meta大幅优化了整个训练栈,并首次将模型算力规模扩展到了超过16000个H100GPU。采用标准的仅解码器的Transformer架构,并进行细微改动,通过迭代的post-training流程,每轮都有SFT(监督微调)和DPO(直接偏好优化),以提高性能。
Meta提高了模型对用户指令的响应能力,增强了遵循详细指令的能力,同时保证安全性。在post-training阶段,进行多轮对齐,使用合成数据生成大部分SFT示例,并采用多种数据处理技术过滤数据至最高质量。
技术亮点:
上下文长度扩展:Llama3.1将上下文长度扩展到了128K,这意味着模型能够处理更复杂的任务,理解更长的文本信息。
多语言支持:模型新增了对八种语言的支持,包括英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语,大大增强了模型的通用性。
性能卓越:在常识、可操纵性、数学、工具使用和多语言翻译等方面,Llama3.1展现出了卓越的性能。
Llama3.1在超过15万亿个token上进行训练,这一规模的训练在业界尚属首次。
模型架构:Llama3.1采用了标准的仅解码器的Transformer架构,并进行了细微的调整,以提高模型的性能。
Meta的CEO扎克伯格在接受采访时表示,开源AI将成为行业的转折点。他强调,开源AI在开放性、可修改性和成本效率方面具有优势,并将推动AI技术的普及和发展。
开源AI允许开发者自由地修改代码,保护数据安全,同时提供了运行效率高且负担得起的模型。此外,开源AI的发展速度快,有望成为长期标准。
Meta正与多家公司合作,发展更广泛的生态系统,支持开发者微调和蒸馏自己的模型。这些模型将在所有主要云平台上提供,包括AWS、Azure、Google、Oracle等。
Llama3.1的发布预示着开源人工智能可能成为行业标准,为AI的普及和应用开辟新的道路。
官方详细介绍:https://ai.meta.com/blog/meta-llama-3-1/