Das neueste Modell o3 von OpenAI erzielte im ARC-AGI-Benchmark erstaunliche Ergebnisse und erreichte unter Standardbedingungen einen Score von 75,7 %, während die Hochleistungsversion sogar 87,5 % erreichte. Diese Leistung überraschte die KI-Forschungsgemeinschaft, beweist aber nicht, dass künstliche allgemeine Intelligenz (AGI) geknackt wurde.

Der ARC-AGI-Benchmark basiert auf dem Abstract Reasoning Corpus (ARC) und zielt darauf ab, die Fähigkeit von KI-Systemen zu bewerten, sich an neue Aufgaben anzupassen und fluide Intelligenz zu zeigen. ARC enthält eine Reihe visueller Rätsel, die das Verständnis grundlegender Konzepte wie Objekte, Grenzen und räumliche Beziehungen erfordern. Menschen lösen diese Rätsel mühelos, während aktuelle KI-Systeme hiermit große Schwierigkeiten haben. ARC gilt als einer der anspruchsvollsten Standards in der KI-Bewertung.

image.png

o3 übertrifft deutlich frühere Modelle. o1-preview und o1 erreichten im ARC-AGI maximal 32 %. Zuvor erreichte der Forscher Jeremy Berman mit einer Hybridmethode, die Claude3.5Sonnet mit genetischen Algorithmen kombinierte, 53 %, während o3 als Quantensprung in der KI-Fähigkeit angesehen wird.

François Chollet, der Schöpfer von ARC, lobte die qualitative Veränderung der KI-Fähigkeiten von o3 und bezeichnete seine Fähigkeit, sich an neue Aufgaben anzupassen, als beispiellos.

Trotz der hervorragenden Leistung von o3 sind die Rechenkosten erheblich. Bei geringer Rechenleistung liegen die Kosten für die Lösung jedes Rätsels zwischen 17 und 20 US-Dollar und benötigen 33 Millionen Token; bei hoher Rechenleistung steigen die Kosten um das 172-fache und verbrauchen Milliarden von Token. Mit sinkenden Inferenzkosten könnten diese Ausgaben jedoch sinnvoller werden.

image.png

Wie o3 diesen Durchbruch erreicht hat, ist derzeit noch nicht im Detail bekannt. Einige Wissenschaftler vermuten, dass o3 eine Methode der Programmsynthese verwendet, die Chain-of-Thought und Suchmechanismen kombiniert. Andere Wissenschaftler glauben, dass o3 lediglich durch eine Erweiterung des verstärkenden Lernens entstanden ist.

image.png

Obwohl o3 im ARC-AGI erhebliche Fortschritte erzielt hat, betont Chollet, dass ARC-AGI kein AGI-Test ist und o3 noch nicht den AGI-Standard erreicht hat. Es schneidet bei einigen einfachen Aufgaben immer noch schlecht ab und zeigt grundlegende Unterschiede zur menschlichen Intelligenz. Darüber hinaus ist o3 bei der Inferenz immer noch auf externe Validierung angewiesen, was weit von der unabhängigen Lernfähigkeit einer AGI entfernt ist.

Das Chollet-Team entwickelt neue, anspruchsvollere Benchmarks, um die Fähigkeiten von o3 zu testen, und erwartet, dass der Score auf unter 30 % sinken wird. Er merkte an, dass echte AGI bedeuten würde, dass die Schaffung von Aufgaben, die für normale Menschen einfach, aber für KI schwierig sind, nahezu unmöglich wird.

Wichtigste Punkte:

🌟 o3 erzielte im ARC-AGI-Benchmark einen hohen Score von 75,7 % und übertraf damit frühere Modelle.

💰 Die Kosten für die Lösung jedes Rätsels durch o3 betragen 17 bis 20 US-Dollar, der Rechenaufwand ist enorm.

🚫 Obwohl o3 hervorragende Leistungen zeigt, betonen Experten, dass es den AGI-Standard noch nicht erreicht hat.