来自德国达姆施塔特工业大学的最新研究揭示了一个令人深思的现象:即便是当前最先进的AI图像模型,在面对简单的视觉推理任务时也会出现明显失误。这项研究结果对AI视觉能力的评估标准提出了新的思考。

研究团队采用了由俄罗斯科学家Michail Bongard设计的Bongard问题作为测试工具。这类视觉谜题由12张简单图像组成,分为两组,要求识别出区分这两组的规则。对于大多数人来说,这种抽象推理任务并不困难,但AI模型的表现却令人意外。

image.png

即便是目前被认为最先进的多模态模型GPT-4o,在100个视觉谜题中也仅成功解决了21个。其他知名AI模型如Claude、Gemini和LLaVA的表现更不尽如人意。这些模型在识别垂直和水平线条,或判断螺旋方向等基础视觉概念时都表现出明显的困难。

研究人员发现,即使在提供多项选择的情况下,AI模型的表现也仅有轻微提升。只有在严格限制可能答案数量的条件下,GPT-4和Claude的成功率才分别提升至68个和69个谜题。通过深入分析四个特定案例,研究团队发现AI系统有时在达到"思考"和"推理"阶段之前,就已经在基础视觉感知层面出现了问题,但具体原因仍难以确定。

这项研究也引发了对AI系统评估标准的反思。研究团队指出:"为什么视觉语言模型在已建立的基准测试中表现出色,却在看似简单的Bongard问题上遇到困难?这些基准测试在评估真实推理能力方面的意义究竟有多大?"这些问题的提出,暗示了当前AI评估体系可能需要重新设计,以更准确地衡量AI的视觉推理能力。

这项研究不仅展示了当前AI技术的局限性,也为未来AI视觉能力的发展指明了方向。它提醒我们,在为AI的快速进步欢呼之际,也要清醒地认识到AI在基础认知能力方面仍有待提升的空间。