Eine aktuelle Studie der Technischen Universität Darmstadt enthüllt ein bemerkenswertes Phänomen: Selbst modernste KI-Bildmodelle scheitern deutlich bei einfachen Aufgaben des visuellen Denkens. Dieses Ergebnis wirft neue Fragen an die Bewertungskriterien für die visuelle Leistungsfähigkeit von KI auf.
Das Forschungsteam nutzte Bongard-Probleme, entwickelt vom russischen Wissenschaftler Michail Bongard, als Testinstrument. Diese visuellen Rätsel bestehen aus 12 einfachen Bildern, aufgeteilt in zwei Gruppen. Die Aufgabe besteht darin, die Regel zu identifizieren, die die beiden Gruppen unterscheidet. Für die meisten Menschen ist diese abstrakte Denkaufgabe nicht schwierig, doch die Leistung der KI-Modelle war überraschend schlecht.
Selbst das als fortschrittlich geltende multimodale Modell GPT-4 löste von 100 visuellen Rätseln nur 21. Andere bekannte KI-Modelle wie Claude, Gemini und LLaVA schnitten noch schlechter ab. Diese Modelle hatten erhebliche Schwierigkeiten bei der Erkennung vertikaler und horizontaler Linien oder der Bestimmung der Richtung einer Spirale – grundlegende visuelle Konzepte.
Die Forscher stellten fest, dass sich die Leistung der KI-Modelle selbst bei Multiple-Choice-Fragen nur geringfügig verbesserte. Nur unter der Bedingung, dass die Anzahl der möglichen Antworten stark eingeschränkt wurde, stieg die Erfolgsrate von GPT-4 und Claude auf 68 bzw. 69 Rätsel. Durch die eingehende Analyse von vier spezifischen Fällen entdeckte das Team, dass KI-Systeme manchmal bereits auf der Ebene der grundlegenden visuellen Wahrnehmung Probleme hatten, bevor sie überhaupt zum „Denken“ und „Schlussfolgern“ kamen. Die genauen Gründe dafür bleiben jedoch unklar.
Diese Studie führt auch zu einer kritischen Auseinandersetzung mit den Bewertungsmaßstäben für KI-Systeme. Das Forschungsteam stellt fest: „Warum schneiden visuelle Sprachmodelle in etablierten Benchmark-Tests gut ab, haben aber Schwierigkeiten mit scheinbar einfachen Bongard-Problemen? Wie aussagekräftig sind diese Benchmark-Tests tatsächlich bei der Bewertung der tatsächlichen Denkfähigkeit?“ Diese Fragen deuten darauf hin, dass das aktuelle KI-Bewertungssystem möglicherweise überarbeitet werden muss, um die visuelle Denkfähigkeit von KI genauer zu messen.
Diese Studie zeigt nicht nur die Grenzen der aktuellen KI-Technologie auf, sondern weist auch den Weg für die zukünftige Entwicklung der visuellen Fähigkeiten von KI. Sie erinnert uns daran, dass wir angesichts der rasanten Fortschritte bei KI auch die noch bestehenden Defizite in grundlegenden kognitiven Fähigkeiten berücksichtigen müssen.