Meta Llama4强势登场，却在长上下文任务中翻车

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Apr 8, 2025

177

一项新的独立评估显示，Meta 最新推出的 Llama4模型——Maverick 和 Scout 在标准测试中表现出色，但在复杂长上下文任务中表现欠佳。根据人工智能分析的“智能指数”，Maverick 得分49分，领先 Claude3.7Sonnet（得分未具体列出），但落后于 Deepseek V30324(53分);Scout 得分36分，与 GPT-4o-mini 相当，优于 Claude3.5Sonnet 和 Mistral Small3.1。两款模型在推理、编码和数学任务中表现稳定，未显示明显短板。

Maverick 的架构效率令人瞩目，其活动参数仅为 Deepseek V3的170亿（对比370亿），总参数占60%(4020亿对比6710亿)，且能处理图像而非仅限于文本。价格方面，Maverick 每百万输入/输出代币均价为0.24美元/0.77美元，Scout 为0.15美元/0.4美元，低于 Deepseek V3，甚至比 GPT-4o 便宜10倍，成为最实惠的 AI 模型之一。

然而，Llama4的发布引发争议。LMArena 基准测试显示，Maverick 在 Meta 推荐的“实验性聊天版本”下排名第二，但启用“风格控制”后跌至第五，凸显其依赖格式优化而非纯粹内容质量。测试人员质疑 Meta 的基准可靠性，指出其与其他平台表现差异明显。Meta 承认优化了人类评估体验，但否认训练数据作弊。

长上下文任务是 Llama4的明显弱点。Fiction.live 测试表明，Maverick 在128，000个令牌下准确率仅为28.1%，Scout 更低至15.6%，远逊于 Gemini2.5Pro 的90.6%。尽管 Meta 宣称 Maverick 支持100万令牌、Scout 支持1000万令牌上下文窗口，但实际性能远未达标。研究显示，超大上下文窗口收益有限，128K 以下更实用。

Meta 生成 AI 负责人 Ahmad Al-Dahle 回应称，早期不一致源于实施问题，而非模型缺陷。他否认测试作弊指控，并表示部署优化正在进行，预计数日内稳定。

Llama4 Maverick Scout DeepseekV30324

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

Scout AI 成功筹集 1500 万美元种子资金

Scout AI，这家专注于无人驾驶车辆制造和自主软件开发的初创公司，近日宣布成功完成1500万美元的种子融资，正式从隐秘模式中浮出水面。该公司由 Colby Adcock 和 Collin Otis 于去年8月创立，旨在将人工智能（AI）和机器人技术结合应用于国防任务。在融资宣布的当天，Scout AI 自豪地透露他们已获得多项美国国防部的合同，并推出了其旗舰产品 —— 名为 Fury 的视觉 - 语言 - 行动基础模型。Fury 被设计为一种具身的 AI 系统，能够感知现实世界、理解自然语言，并实时发出指令，控制智能和自主

2025年4月17号 11:18

950

Meta 新模型 Llama-4-Maverick 排名骤降，引发刷榜质疑

近日，Meta 公司发布的开源大模型 Llama-4-Maverick 在 LMArena 的排行榜上从第二名直降至第32名，这一剧烈波动引发了开发者们的广泛质疑，认为 Meta 可能通过提交特供版本以刷榜。事情的起因要追溯到4月6日，Meta 发布了其最新的大模型 Llama4，包括 Scout、Maverick 和 Behemoth 三个版本。其中，Llama-4-Maverick 在初期的评估中表现亮眼，位列 LMArena 排行榜的第二名，仅次于 Gemini2.5Pro。然而，随着开发者对 Llama4开源版的实际使用反馈逐渐披露，这款模型的声誉迅速下滑。一些开发者发现 Meta 提交给 LMAre

2025年4月14号 17:36

1.5k

Llama 4重磅登陆Vertex AI：一键部署Meta新模型，AI开发迎来新纪元

近日，谷歌云平台宣布，其Vertex AI Model Garden正式引入Meta最新一代开源大模型Llama4，这一消息迅速在全球科技圈掀起热潮。据悉，Llama4系列中的Scout和Maverick两款模型现已集成至Vertex AI，并通过完全托管的“模型即服务”（Model-as-a-Service，MaaS）API端点向开发者开放预览。这一功能的推出，不仅标志着谷歌与Meta在AI生态合作上的进一步深化，也为开发者提供了一键部署尖端模型的便捷途径，开启了AI应用开发的新篇章。Llama4作为Meta最新发布的旗舰模型系列，以其高效的多模态能力和创新的混合

2025年4月10号 9:34

3.4k

Meta高管回应Llama 4训练作弊传言：坚决否认不实指控

在近日的社交媒体上，Meta 公司的高层对关于其新 AI 模型 Llama4的 “不当训练” 指控进行了澄清，称这些说法完全不属实。指控声称 Meta 在其新推出的 Llama4Maverick 和 Llama4Scout 模型上，通过在特定基准测试的 “测试集” 上进行训练，以此来人为提高模型的性能表现。Meta 的生成式人工智能副总裁艾哈迈德・阿尔・达赫勒（Ahmad Al-Dahle）在社交平台 X 上作出回应，明确表示这类说法毫无根据。他指出，测试集是用于评估模型性能的数据集，若在此数据集上进行训练，确实会导致模型的表现看

2025年4月8号 9:31

1.7k

Meta 发布 Llama 4 大模型：混合专家架构引领 AI 新时代

Meta 公司推出了其最新的开源人工智能模型 Llama4，标志着其在人工智能领域的又一重大进展。Llama4分为两个版本，分别命名为 Scout 和 Maverick，旨在提升 AI 模型的功能与表现。Meta 表示，Llama4是一个多模态大模型，能够处理文本、图像、视频和音频等多种数据类型，并能在这些格式之间自由转换。值得一提的是，Llama4系列首次采用了 “混合专家”（MoE）架构，这一新颖设计极大地提高了模型的训练和响应效率。通过将模型划分为多个专注于特定任务的 “专家” 子模型，Llama4在处理复杂查询

2025年4月7号 9:47

4.5k

Meta被指AI模型"双标":评测版与公开版Maverick表现大相径庭

Meta周六发布了其新旗舰AI模型Maverick，该模型在LM Arena评测中排名第二。LM Arena是一项依靠人类评分者比较不同模型输出并选择偏好的测试平台。然而，多位AI研究人员很快发现，Meta部署到LM Arena的Maverick版本似乎与开发人员广泛使用的版本存在显著差异。Meta在公告中承认，LM Arena上的Maverick是一个"实验性聊天版本"。与此同时，Llama官方网站上的图表显示，Meta的LM Arena测试使用的是"针对对话性进行了优化的Llama4Maverick"。这种差异引发了研究社区的质疑。AI研究人员在社交平台X上指出，公开可

2025年4月7号 9:20

3.4k

Meta 官宣开源原生多模态 Llama 4，性能强劲引关注

美国科技巨头 Meta 推出了其最强大的开源人工智能模型 Llama4。此次首批发布共两款，分别是 Llama4Scout 和 Llama4Maverick 。Llama4Scout 共有1090亿参数，170亿活跃参数，16个专家，最大亮点是支持1000万上下文，这相当于可以处理20+ 小时的视频，并且仅在单个 H100GPU（Int4量化后）上就能运行。在基准测试中，其性能超越 Gemma3、Gemini2.0Flash - Lite、Mistral3.1。Llama4Maverick 共有4000亿参数，170亿活跃参数，128个专家，100万上下文。在大模型 LMSYS 排行榜上，Llama4Maverick 冲上第二（ELO 得分1417），仅次于闭源 Ge

2025年4月6号 9:39

9.1k

Meta计划在2025年投入高达650亿美元以推进人工智能发展

扎克伯格近日宣布，Meta将在2025年投入高达650亿美元，用于增强其人工智能（AI）项目。他在 Facebook 上发文表示，2025年将是人工智能的关键一年，预计 Meta 的 AI 助手将为超过10亿用户提供服务，Llama4模型将成为行业领先的尖端模型。此外，Meta 还计划开发一款 AI 工程师，能够逐渐为公司的研发工作贡献代码。图源备注：图片由AI生成，图片授权服务商Midjourney扎克伯格透露，Meta 正在建设一座大型数据中心，以支持这一宏伟计划。他强调，公司具备持续投资的资金实力，未来几年也将保持这

2025年1月25号 11:51

2.4k

谷歌预计12月份推出 Gemini 2.0，升级幅度可能不大

谷歌最近在紧锣密鼓地准备推出他们的最新语言模型 Gemini2.0，预计将在12月份与大家见面。根据来自《The Verge》的消息来源，尽管 Gemini2.0可能不会带来我们期待的重大性能提升，但还是会推出一些有趣的新功能。与此同时，有消息称一些商业客户已经提前获得了这个新模型的使用权限。在 AI 领域，其他公司也在积极推进自的项目。比如，埃隆・马斯克的 xAI 利用在其孟菲斯超级计算中心的100，000个 Nvidia H100芯片来训练 Grok3，而 Meta 则在用更多的计算资源训练 Llama4。谷歌在其旗舰语言模型

2024年10月28号 15:44

2.0k

AI巨头暗战升级：Claude 3.5 Opus、Gemini 2蓄势待发

人工智能领域正迎来一场激烈的较量。知名博主Rowan Cheung近日在社交媒体上抛出一个引人深思的问题:究竟是Claude3.5Opus、Gemini2，还是Llama4将引领下一波AI革命?这一言论迅速引发了科技圈的广泛讨论，甚至连前OpenAI员工、现谷歌Gemini团队成员Logan Kilpatrick也参与其中，用神秘的表情引发了无数猜测。与此同时，Anthropic公司的融资动向更是将这场AI角逐推向了高潮。据《信息时报》报道，Anthropic正在寻求新一轮融资，估值目标高达300亿到400亿美元。这一数字较半年前的150亿美元估值翻了一番，显

2024年9月24号 14:10

5.3k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图