Meta推出开源大语言模型Llama 3.1 405B，性能堪比GPT-4

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年7月24号 8:20

199

昨晚，Meta公司宣布开源其最新大语言模型Llama3.1 405B。这一重磅消息标志着经过一年的精心筹备，从项目规划到最终审核，Llama3系列模型终于与公众见面。

Llama3.1405B是一个具有1280亿参数的多语言工具使用模型。该模型在8K上下文长度预训练后，进一步通过128K上下文长度持续训练而成。根据Meta的说法，这个模型在多项任务中的表现可与业界领先的GPT-4相媲美。

相较于先前的Llama模型，Meta在多个方面进行了优化:

改进了预训练数据的预处理和策划流程
提升了训练后数据的质量保证和筛选方法

405B模型的预训练是一项巨大挑战，涉及15.6万亿个标记和3.8x10^25次浮点运算。为此，Meta优化了整个训练架构，并调用了超过16，000块H100GPU。

为支持405B模型的大规模生产推理，Meta将其从16位（BF16）量化至8位(FP8)，显著降低了计算需求，使单个服务器节点也能运行该模型。

此外，Meta利用405B模型提升了70B和8B模型的训练后质量。在训练后阶段，团队通过多轮对齐过程完善了聊天模型，包括监督式微调（SFT）、拒绝采样和直接偏好优化。值得注意的是，大部分SFT样本都是使用合成数据生成的。

Llama3还整合了图像、视频和语音功能，采用组合方法使模型能够识别图像和视频，并支持语音交互。不过，这些功能仍在开发中，尚未正式发布。

Meta还更新了许可协议，允许开发者使用Llama模型的输出来改进其他模型。

Meta的研究人员表示:"能与业内顶尖人才一起在AI前沿工作，并公开透明地发布研究成果，是无比令人振奋的。我们期待看到开源模型带来的创新，以及未来Llama系列模型的潜力!"

这一开源举措无疑将为AI领域带来新的机遇和挑战，推动大语言模型技术的进一步发展。

挑战开源AI新高度:DeepSeek V3超越Llama3.1，训练数据达14.8万亿token

中国人工智能公司DeepSeek日前发布了一款具有里程碑意义的开源大语言模型DeepSeek V3。这款拥有6710亿参数的模型不仅规模超越Meta的Llama3.1，在多项基准测试中的表现也优于包括GPT-4在内的主流封闭源模型。DeepSeek V3的突出特点在于其强大的性能与高效的开发过程。该模型在编程平台Codeforces的竞赛中表现出色，并在测试代码集成能力的Aider Polyglot测试中领先竞争对手。模型训练采用了14.8万亿token的庞大数据集，参数规模达到了Llama3.1的1.6倍。更引人注目的是，DeepSeek仅用两个月时间、550万美元成

超越Gemma2！IBM发布Granite3.1模型：支持128K上下文长度

IBM 正式发布了其新一代开源大语言模型 Granite3.1，力图在企业级 AI 领域占据领先地位。这一系列模型具备128K 的扩展上下文长度、嵌入模型、内置的幻觉检测功能以及性能的显著提升。IBM 声称，Granite8B Instruct 模型在相同规模的开源竞争对手中表现最佳，包括 Meta 的 Llama3.1、Qwen2.5和谷歌的 Gemma2。Granite3.1模型的发布是在 IBM 快速迭代 Granite 系列的背景下进行的，早在10月份就推出了 Granite3.0。IBM 透露，其与生成 AI 相关的业务收入已达到20亿美元。新版本的核心理念是将更多功能集成到更小的

昆仑万维天工大模型Skywork 4.0 O1版将正式启动邀请测试

昆仑万维科技股份有限公司宣布，其最新研发的天工大模型4.0O1版（英文名:Skywork O1）将于2024年11月27日启动邀请测试。天工大模型4.0O1版是国内首款具有中文逻辑推理能力的o1模型，它不仅在模型输出上内生了思考、计划、反思等能力，而且在标准评测集上，其推理能力相较于基座模型有了大幅上升，实现了模型推理能力的本质提升。