DeepMind推新基准Michelangelo：揭示长上下文 LLM推理缺陷

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年10月11号 9:35

125

最近，超长上下文窗口的大型语言模型（LLMs）成为了人们讨论的热点。这些模型能够在一个提示中处理数十万甚至上百万个标记，为开发者开启了许多新的可能性。不过，这些长上下文 LLM 到底能多好地理解和利用所接收到的大信息呢?

为了解决这个问题，谷歌 DeepMind 的研究人员推出了名为 Michelangelo 的新基准，旨在评估长上下文推能力。

研究结果表明，尽管当前的顶尖模型在从大量上下文数据中提取信息方面取得了一定进展，但在需要推理和理解数据结构的任务上仍然存在困难。

随着长上下文窗口的 LLM 逐渐涌现，研究人员开始意识到，需要新的基准来评估这些模型的能力。现有的评估多集中在信息检索任务上，比如 “从干草堆中找针” 的评估，即在大量上下文中寻找特定的信息。然而，简单的检索并不等同于模型对整体上下文的理解。

为了解决这些问题，Michelangelo 提出了一种全新的评估方法，通过设置复杂的任务，要求模型在处理长文本时进行更深入的推理和综合。例如，该评估框架中包含多个与编程和自然语言相关的任务，这些任务不仅考验模型的记忆能力，更注重其理解和处理信息的深度。

在 Michelangelo 的评估任务中，模型需解决三种基本的长文档综合任务，分别是 “潜在列表”、“多轮共指消解” 和其他多种应用场景。这些任务不仅有助于评估模型在长文档中的表现，还能揭示其在推理和综合方面的不足之处。

第一项是 “潜在列表”，模型需要处理一长串对 Python 列表的操作，过滤掉无关的或冗余的语句，以确定列表的最终状态。
第二项是 “多轮指代解析”，模型需在长对话中理解对话结构并解决引用问题。
第三项是 “我不知道”，模型在回答多个选择题时，需要判断上下文中是否包含答案，并能够准确回应 “我不知道”。

研究人员在Michelangelo 上面对十个顶尖的 LLM（包括不同版本的 Gemini、GPT-4和 Claude）进行评估，他们在多达100万个令牌的上下文中测试了模型。Gemini 模型在 MRCR 上表现最好，GPT 模型在 Latent List 上表现出色，Claude3.5Sonnet 在 IDK 上获得最高分。

研究人员发现尽管这些模型在处理长上下文方面表现各异，但它们在面对更复杂的推理任务时，整体性能都有显著下降。

这意味着即便在拥有超长上下文窗口的情况下，目前的 LLM 在推理能力上仍有待提高。

研究人员计划持续扩展 Michelangelo 的评估项目，并希望将其直接开放，供其他研究者测试他们的模型。

论文入口:https://arxiv.org/abs/2409.12640

划重点:
🔍 长上下文 LLM 的新基准 Michelangelo 旨在评估模型的推理能力。
🧩 研究表明现有模型在处理复杂推理任务时存在显著性能下降。
📈 研究人员计划扩展评估项目，以促进模型推理能力的进一步研究。

深推理模型崛起！Together AI融资3.05亿美元助推GPU需求

在 AI 行业，Together AI 最近宣布完成了一轮3.05亿美元的 B 轮融资，这一消息引起了广泛关注。该公司的崛起与其新推出的深度理模型 DeepSeek-R1密切相关。与最初的担忧相反，许行业专家认为，深度推理的进步并没有降低对基础设施的需求，反而在不断提升这一需求。图源备注：图片由AI生成，图片授权服务商Midjourney自2023年成立以来，Together AI 旨在简化企业对开源大型语言模型（LLM）的使用。随着时间的推移，该公司逐步扩展其平台，提供了一个名为 “Together 平台” 的解决方案，支持在虚

谷歌DeepMind高管：AI 应助力人类能力，而非取代

在近期于班加罗尔举办的 “投资卡纳塔克2025” 会议上，众多科技行业的领导者聚集一堂，探讨人工智能在印度的变革潜力及其影响。谷歌DeepMind的高级董事马尼什・古普塔（Manish Gupta）在会上发表了重要讲话，强调在推动技术创新的同时，应建立相应的规章制度，以确保负责任的发展。图源备注：图片由AI生成，图片授权服务商Midjourney古普塔指出，随着印度在构建基础性人工智能模型方面取得显著进展，大家都在关注人工智能对就业市场的影响。他表示，科技行业的责任在于开发可以增

AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

近日，Vectara 发布了一份名为 “幻觉排行榜” 的报告，比较了不同大型语言模型（LLM）在总结短文档时产生幻觉的表现。这份排行榜利用了 Vectara 的 Hughes 幻觉评估模型(HHEM-2.1)，该模型定期更新，旨在评估这些模型在摘要中引入虚假信息的频率。根据最新数据，报告指出了一系列流行模型的幻觉率、事实一致性率、应答率以及平均摘要长度等关键指标。在最新的排行榜中，谷歌的 Gemini2.0系列表现出色，尤其是 Gemini-2.0-Flash-001，以0.7% 的低幻觉率位居榜首，显示出其在处理文档时几乎没有引

DeepSeek 推出 NSA 技术：加速长上下文训练与推理

在人工智能领域，DeepSeek 团队于近日发布了最新研究成果，推出了一种名为 NSA（Native Sparse Attention）的创新稀疏注意力机制。这项技术的核心目标是提升长上下文训练和推理的速度，特别是针对现代硬件进行了优化，使得训练和推理的效率大幅提升。NSA 技术的推出，为人工智能模型的训练带来了显著的变化。首先，它通过一系列针对现代计算硬件特性的设计优化，显著提升了推理速度，并有效降低了预训练的成本。更重要的是，在提升速度和降低成本的同时，NSA 仍然保持了高水平的模型

AI新闻资讯

DeepMind推新基准Michelangelo：揭示长上下文 LLM推理缺陷

AIbase基地

相关AI新闻推荐

深推理模型崛起！Together AI融资3.05亿美元助推GPU需求

​谷歌DeepMind高管：AI 应助力人类能力，而非取代

​AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

​DeepSeek 推出 NSA 技术：加速长上下文训练与推理

谷歌DeepMind高管：AI 应助力人类能力，而非取代

AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

DeepSeek 推出 NSA 技术：加速长上下文训练与推理