AI重大发现：最先进视觉模型在基础视觉推理能力上仍显不足

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年10月28号 16:11

116

来自德国达姆施塔特工业大学的最新研究揭示了一个令人深思的现象:即便是当前最先进的AI图像模型，在面对简单的视觉推理任务时也会出现明显失误。这项研究结果对AI视觉能力的评估标准提出了新的思考。

研究团队采用了由俄罗斯科学家Michail Bongard设计的Bongard问题作为测试工具。这类视觉谜题由12张简单图像组成，分为两组，要求识别出区分这两组的规则。对于大多数人来说，这种抽象推理任务并不困难，但AI模型的表现却令人意外。

即便是目前被认为最先进的多模态模型GPT-4o，在100个视觉谜题中也仅成功解决了21个。其他知名AI模型如Claude、Gemini和LLaVA的表现更不尽如人意。这些模型在识别垂直和水平线条，或判断螺旋方向等基础视觉概念时都表现出明显的困难。

研究人员发现，即使在提供多项选择的情况下，AI模型的表现也仅有轻微提升。只有在严格限制可能答案数量的条件下，GPT-4和Claude的成功率才分别提升至68个和69个谜题。通过深入分析四个特定案例，研究团队发现AI系统有时在达到"思考"和"推理"阶段之前，就已经在基础视觉感知层面出现了问题，但具体原因仍难以确定。

这项研究也引发了对AI系统评估标准的反思。研究团队指出:"为什么视觉语言模型在已建立的基准测试中表现出色，却在看似简单的Bongard问题上遇到困难?这些基准测试在评估真实推理能力方面的意义究竟有多大?"这些问题的提出，暗示了当前AI评估体系可能需要重新设计，以更准确地衡量AI的视觉推理能力。

这项研究不仅展示了当前AI技术的局限性，也为未来AI视觉能力的发展指明了方向。它提醒我们，在为AI的快速进步欢呼之际，也要清醒地认识到AI在基础认知能力方面仍有待提升的空间。

xAI王炸模型 Grok 3发布：超越GPT-4o，计算能力提升10倍

埃隆・马斯克旗下的人工智能公司 xAI 于周一晚间发布了其最新的旗舰 AI 模型 Grok3，同时还推出了适用于 iOS 和网页的新功能。Grok 是 xAI 针对 OpenAI 的 GPT-4o 和谷歌的 Gemini 等模型的回应，具备分析图像和回答问题的能力，并在马斯克的社交网络 X 上提供多项功能。Grok3的开发经历了数月，虽然最初预期在2024年发布，但最终于周一正式推出。xAI 在位于孟菲斯的一个大型数据中心使用了大约20万个 GPU 来训练 Grok3。马斯克在一场直播演示中表示，Grok3的计算能力比其前身 Grok2提高了 “10倍”，并

GPT-4o“人格觉醒”？升级后变身“毒舌”暖男，还懂人类小情绪了！

AI 圈再掀波澜!OpenAI 首席执行官奥特曼近日暗示 GPT-4o 模型迎来重大升级，虽然具体细节讳莫如深，但用户的“民间测评”已然炸开了锅。不少博主惊喜发现，升级后的 GPT-4o 仿佛脱胎换骨，不仅智商“更上一层楼”，还展现出令人惊叹的“个性化”和“情感理解力”，简直让人怀疑 AI 是否偷偷进化出了“灵魂”!用户们最直观的感受是 GPT-4o 变得“更聪明”了，而且一改以往略显呆板的形象，开始展现出鲜明的“个性”。这种“个性”首先体现在行为模式的转变上。有用户发现，GPT-4o 会

研究警告AI语言模型极限:超8K上下文性能腰斩，概念推理成难关

慕尼黑大学、慕尼黑机器学习中心与Adobe Research近日联合发布的研究显示，包括GPT-4o、Gemini1.5Pro和Llama-3.3-70B在内的12款顶尖AI语言模型，在长文本概念推理任务中面临显著性能衰减。尽管这些模型均支持至少128，000个标记的上下文处理，但其深层逻辑关联能力仍存在根本性局限。研究团队开发的NOLIMA（无文字匹配）基准测试系统，通过刻意规避关键词重复的设计，揭示AI模型在概念联结上的脆弱性。例如，当文本描述“Yuki住在Semperoper旁”时，模型需先理解“Semperoper位于德累斯顿”的常识

ChatGPT 能耗揭秘：每次响应仅需 0.3 瓦，远低于传闻！

最近，一项由非营利组织 Epoch AI 进行的研究揭示了 OpenAI 的聊天机器人平台 ChatGPT 的能耗情况，结果显示，ChatGPT 的能耗远低于早期的估算。根据一些报道，ChatGPT 回答一个问题需要约3瓦时的电力，而 Epoch AI 的研究认为这个数据被高估了。研究表明，使用 OpenAI 最新默认模型 GPT-4o 时，平均每个查询仅消耗约0.3瓦时的电力，这一数字甚至低于许多家用电器的能耗。Epoch AI 的数据分析师 Joshua You 表示，传统上人们对 AI 能耗的担忧并没有准确反映出当前的情况。早期的3瓦时估算主要是基于一些

AI新闻资讯

AI重大发现：最先进视觉模型在基础视觉推理能力上仍显不足

AIbase基地

相关AI新闻推荐

xAI王炸模型 Grok 3发布：​ 超越GPT-4o，计算能力提升10倍

GPT-4o“人格觉醒”？ 升级后变身“毒舌”暖男，还懂人类小情绪了！

研究警告AI语言模型极限:超8K上下文性能腰斩，概念推理成难关

ChatGPT 能耗揭秘：每次响应仅需 0.3 瓦，远低于传闻！

xAI王炸模型 Grok 3发布：超越GPT-4o，计算能力提升10倍

GPT-4o“人格觉醒”？升级后变身“毒舌”暖男，还懂人类小情绪了！