OpenAI hat in seiner zwölftägigen Ankündigungsreihe die neue Generation von Inferenzmodellen, o3 und seine abgespeckte Version o3-mini, vorgestellt. Diese beiden Modelle gelten als Nachfolger der o1-Serie und wurden speziell entwickelt, um vor der Beantwortung von Fragen gründlicher nachzudenken und so die Genauigkeit zu verbessern.

Das o3-Modell erreichte im ARC-AGI-Benchmark hervorragende Ergebnisse und ist das erste KI-Modell, das diesen Benchmark durchbrochen hat. Es zeigt eine problem-lösende Fähigkeit, die dem menschlichen Niveau nahekommt. Die minimale Leistung der o3-Modellreihe im ARC-AGI-Benchmark liegt bei 75,7 %, kann aber mit mehr Rechenressourcen auf 87,5 % gesteigert werden.

Das o3-mini-Modell konzentriert sich auf die Verbesserung der Inferenzgeschwindigkeit und die Kostenreduzierung bei gleichzeitiger Beibehaltung der Modellleistung. Es eignet sich besonders gut für Programmieraufgaben. OpenAI plant, o3-mini Ende Januar und das vollständige o3-Modell kurz darauf zu veröffentlichen. Obwohl die o3-Modellreihe nicht direkt veröffentlicht, sondern zunächst Sicherheitstests unterzogen wird, hat OpenAI bereits begonnen, Sicherheitsforschern die Registrierung für den Zugriff auf Vorschauen von o3 und o3-mini zu ermöglichen.

OpenAIs leistungsstärkstes Inferenzmodell o3 veröffentlicht: AGI-Fähigkeiten steigen sprunghaft an, nähern sich dem menschlichen Niveau

In Bezug auf die Lösung von Programmier- und mathematischen Problemen zeigt das o3-Modell bemerkenswerte Fähigkeiten. Im SWE-bench Verified-Benchmark liegt die Genauigkeit von o3 bei etwa 71,7 %, über 20 % höher als beim o1-Modell. Im Competition Code erzielte o3 einen Elo-Score von 2727, während o1 nur 1891 erreichte. Darüber hinaus erreicht o3 eine Genauigkeit von 96,7 % in der Wettbewerbsmathematik und 87,7 % in GPQA Diamond, fast 10 % mehr als o1.

OpenAI hat auch eine neue Methode zur Sicherheitsbewertung vorgestellt: Deliberative Alignment (überlegtes Ausrichten). Dies ist ein neues Paradigma, das Modelle direkt Sicherheitsrichtlinien beibringt. Es ermöglicht den Modellen, sich vor der Beantwortung von Fragen explizit an die Richtlinien zu erinnern und die Inferenz präzise durchzuführen. Diese Methode wurde verwendet, um die o-Modellreihe von OpenAI auszurichten, und führte zu einer hochpräzisen Einhaltung der Sicherheitsrichtlinien von OpenAI.

Derzeit treibt OpenAI externe Sicherheitstests voran und hat auf seiner Website Anträge auf frühen Zugriff freigeschaltet. Bewerber müssen ein Online-Formular ausfüllen und relevante Informationen angeben. Ausgewählte Forscher erhalten Zugriff auf o3 und o3-mini, um deren Fähigkeiten zu untersuchen und zur Sicherheitsbewertung beizutragen.