苹果AI研究团队发现大模型推理短板一句话就把OpenAI o1干废了

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年10月12号 14:59

304

在人工智能的世界里，机器学习模型尤其是大型语言模型（LLMs）的推理能力一直是科学家们关注的焦点。

最近，苹果公司的AI研究团队发表了一篇论文，题为《理解大型语言模型在数学推理上的局限性》，为我们揭开了这些模型在处理逻辑问题时的局限性。

论文中，研究者们通过一个简单的数学问题来展示这一点。他们首先提出了一个关于奥利弗摘猕猴桃的问题:

如下所示:

奥利弗星期五摘了44颗猕猴桃。星期六他又摘了58颗猕猴桃。星期天他摘的猕猴桃数量是星期五的两倍。奥利弗一共有多少颗猕猴桃?

显然，答案是44+58+ （44*2） =190。虽然大型语言模型在算术方面实际上并不完善，但它们可以相当可靠地解决这样的问题。

但如果你加入一些无关的信息，来观察模型的反应，比如:

奥利弗星期五摘了44颗猕猴桃。星期六他又摘了58颗。星期天他摘的猕猴桃数量是星期五的两倍，但其中5颗比平均尺寸小一点。奥利弗有多少颗猕猴桃?

尽管这并没有改变问题的数学本质，但即使是最先进的LLMs也在这个小小的干扰下给出了错误的答案。例如，GPT-o1-mini错误地从星期天摘的猕猴桃总数中减去了5个小猕猴桃。

这个实验表明，尽管LLMs在某些情况下能够给出正确答案，但它们并不真正理解问题的本质。

研究者们认为，这些模型的失败模式表明，它们并没有进行真正的逻辑推理，而是在复制它们在训练数据中观察到的推理步骤。这就像是一个LLM能够统计出“我爱你”后面通常会跟着“我也爱你”，但这并不意味着它真正理解了爱的含义。

这篇论文的合著者之一Mehrdad Farajtabar在社交媒体上进一步解释了这一发现。他指出，尽管通过更好的提示工程可能在一些简单的情况下提高模型的表现，但对于复杂的干扰，模型可能需要更多的上下文数据来正确处理，而这些干扰对于一个小孩来说可能根本不是问题。

这项研究提醒我们，尽管LLMs在语言处理方面表现出色，但它们在逻辑推理方面的能力仍然有限。这不仅是一个学术问题，随着AI技术日益成为我们日常生活的一部分，这些问题的答案变得愈发重要。

我们不能简单地假设AI能够理解并执行复杂的任务，而应该更加深入地了解它们的工作原理和局限性。这项研究为我们提供了对AI技术更深层次的理解，同时也为我们如何使用和发展这些技术提供了宝贵的见解。

参考资料：https://techcrunch.com/2024/10/11/researchers-question-ais-reasoning-ability-as-models-stumble-on-math-problems-with-trivial-changes/

阿里巴巴股价飙升，背后原因竟与人工智能有关

阿里巴巴的股价在近期表现出色，持续攀升，吸引了投资者的广泛关注。这家知名的电子商务巨头上周发布了令人惊喜的财报，超出市场预期，进一步巩固了其在行业中的地位。公司不仅在营收上实现了增长，同时也表现出良好的盈利能力，显示出其强大的市场竞争力。值得注意的是，阿里巴巴宣布将与苹果公司在中国市场进行合作，支持 iPhone 的人工智能服务。这一消息无疑为其股价上涨注入了强心剂。双方的合作不仅将有助于推动阿里巴巴在 AI 领域的发展，还将提升其在消费者心目中

Figure推出新型智能模型 Helix，让人形机器人接受语音命令做家务

最近，Figure 创始人兼 CEO 布雷特・阿德科克（Brett Adcock）发布了一种新的机器学习模型 Helix，旨在提升人形机器人在家庭环境中的应用能力。这一消息正值 Figure 宣布与 OpenAI 的合作结束仅两周，显示出他们在机器人技术领域的坚定决心。Helix 是一个 “通用型” 的视觉 - 语言 - 行动（VLA）模型，能够通过视觉数据和语言指令来实时控制机器人。它的工作原理与谷歌 DeepMind 的 RT-2相似，后者通过视频与大型语言模型的结合训练机器人。Helix 则更进一步，它展示了强大的物体通用性，能够识别

深推理模型崛起！Together AI融资3.05亿美元助推GPU需求

在 AI 行业，Together AI 最近宣布完成了一轮3.05亿美元的 B 轮融资，这一消息引起了广泛关注。该公司的崛起与其新推出的深度理模型 DeepSeek-R1密切相关。与最初的担忧相反，许行业专家认为，深度推理的进步并没有降低对基础设施的需求，反而在不断提升这一需求。图源备注：图片由AI生成，图片授权服务商Midjourney自2023年成立以来，Together AI 旨在简化企业对开源大型语言模型（LLM）的使用。随着时间的推移，该公司逐步扩展其平台，提供了一个名为 “Together 平台” 的解决方案，支持在虚

AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

近日，Vectara 发布了一份名为 “幻觉排行榜” 的报告，比较了不同大型语言模型（LLM）在总结短文档时产生幻觉的表现。这份排行榜利用了 Vectara 的 Hughes 幻觉评估模型(HHEM-2.1)，该模型定期更新，旨在评估这些模型在摘要中引入虚假信息的频率。根据最新数据，报告指出了一系列流行模型的幻觉率、事实一致性率、应答率以及平均摘要长度等关键指标。在最新的排行榜中，谷歌的 Gemini2.0系列表现出色，尤其是 Gemini-2.0-Flash-001，以0.7% 的低幻觉率位居榜首，显示出其在处理文档时几乎没有引

AI新闻资讯

苹果AI研究团队发现大模型推理短板 一句话就把OpenAI o1干废了