Die Arc Prize Stiftung hat kürzlich einen neuen Test veröffentlicht – ARC-AGI-2 – um das allgemeine Intelligenzniveau von KI-Modellen zu messen. Die Stiftung wurde mitbegründet von dem bekannten KI-Forscher François Chollet. Laut dem Blog der Stiftung stellt dieser neue Test die meisten führenden KI-Modelle vor große Herausforderungen.
Laut der Arc Prize Rangliste liegen „inferenzbasierte“ KI-Modelle wie OpenAIs o1-pro und DeepSeks R1 im ARC-AGI-2-Test mit nur 1% bis 1,3% weit hinter den Erwartungen zurück. Sogar leistungsstärkere, nicht-inferenzbasierte Modelle wie GPT-4.5, Claude3.7Sonnet und Gemini2.0Flash erreichen nur etwa 1%. Der ARC-AGI-Test umfasst eine Reihe von Puzzles, bei denen die KI visuelle Muster aus unterschiedlich farbigen Blöcken erkennen und das richtige „Antwort“-Raster erstellen muss. Diese Aufgaben zwingen die KI dazu, sich an noch nie dagewesene Probleme anzupassen.
Um einen menschlichen Benchmark zu erstellen, hat die Arc Prize Stiftung über 400 Personen zum Absolvieren des ARC-AGI-2-Tests eingeladen. Die durchschnittliche Punktzahl dieser Gruppe lag bei 60% und damit weit über der Punktzahl aller KI-Modelle. Chollet erklärte in den sozialen Medien, dass ARC-AGI-2 im Vergleich zur Vorgängerversion ARC-AGI-1 die tatsächliche Intelligenz von KI-Modellen effektiver misst. Der neue Test soll bewerten, ob KI-Systeme neue Fähigkeiten effizient erlernen können, die über ihre Trainingsdaten hinausgehen.
Im Vergleich zu ARC-AGI-1 wurde ARC-AGI-2 in mehreren Aspekten verbessert, insbesondere durch die Einführung einer neuen Kennzahl „Effizienz“. Die Modelle müssen Muster sofort erkennen, ohne auf das Gedächtnis zurückzugreifen. Wie der Mitbegründer der Arc Prize Stiftung, Greg Kamradt, sagte, liegt Intelligenz nicht nur in der Fähigkeit zur Problemlösung, sondern auch in der Effizienz.
Bemerkenswert ist, dass OpenAIs o3-Modell in ARC-AGI-1 mit 75,7% unübertroffen war, bis es 2024 überholt wurde. Im ARC-AGI-2 erreicht o3 jedoch nur 4%, wobei die Rechenkosten pro Aufgabe bei 200 US-Dollar liegen. Die Veröffentlichung von ARC-AGI-2 fällt in eine Zeit, in der die Notwendigkeit neuer Messstandards für KI-Fortschritte in der Technologiebranche immer lauter wird. Thomas Wolf, Mitbegründer von Hugging Face, erklärte, dass der KI-Branche Tests fehlen, um die Schlüsselfunktionen der sogenannten Künstlichen Allgemeinen Intelligenz (AGI) zu messen, einschließlich Kreativität.
Gleichzeitig hat die Arc Prize Stiftung den Arc Prize Wettbewerb 2025 angekündigt, bei dem Entwickler aufgefordert werden, im ARC-AGI-2-Test eine Genauigkeit von 85% mit Kosten von nur 0,42 US-Dollar pro Aufgabe zu erreichen.
Wichtigste Punkte:
🌟 ARC-AGI-2 ist ein neuer Test der Arc Prize Stiftung zur Messung des allgemeinen Intelligenzniveaus von KI.
📉 Die Ergebnisse der derzeit führenden KI-Modelle in diesem Test sind durchweg niedrig und liegen weit unter dem menschlichen Durchschnitt.
🏆 Die Arc Prize Stiftung veranstaltet einen Wettbewerb, um Entwickler zu ermutigen, die Leistung von KI in dem neuen Test kostengünstig zu verbessern.