OpenAIs neue Systeme erzielten bei jüngsten Bewertungen herausragende Ergebnisse und belegten den ersten Platz im Chatbot-Ranking. Aufgrund der geringen Anzahl an Bewertungen könnte dies das Ergebnis jedoch verzerren.

QQ20240920-103932.png

Laut der veröffentlichten Übersicht schnitten die neuen Systeme in allen Bewertungskategorien hervorragend ab, darunter Gesamtperformance, Sicherheit und technische Fähigkeiten. Ein speziell für STEM-Aufgaben entwickeltes System belegte zusammen mit der im frühen September veröffentlichten GPT-4o-Version kurzzeitig den zweiten Platz und führte im technischen Bereich.

Chatbot Arena ist eine Plattform zum Vergleich verschiedener Systeme. Die neuen Systeme wurden anhand von über 6.000 Community-Bewertungen bewertet. Die Ergebnisse zeigen, dass die neuen Systeme bei mathematischen Aufgaben, komplexen Anweisungen und Programmieraufgaben hervorragend abschnitten.

QQ20240920-103553.png

Die neuen Systeme erhielten jedoch deutlich weniger Bewertungen als etabliertere Systeme wie GPT-4o oder Anthropic's Claude 3.5, wobei jedes System weniger als 3.000 Bewertungen aufwies. Eine so kleine Stichprobengröße kann die Bewertung verzerren und die Aussagekraft der Ergebnisse einschränken.

OpenAIs neue Systeme zeichnen sich in Mathematik und Codierung aus, den Hauptzielen ihres Designs. Durch längeres „Nachdenken“ vor der Beantwortung sollen diese Systeme neue Maßstäbe für KI-Schlussfolgerungen setzen. Diese Systeme sind jedoch nicht in allen Bereichen überlegen. Viele Aufgaben erfordern keine komplexe logische Schlussfolgerung, und manchmal reicht die schnelle Antwort anderer Systeme aus.

Das Diagramm von Lmsys zur Stärke mathematischer Modelle zeigt deutlich, dass diese neuen Systeme mit über 1360 Punkten die Leistung anderer Systeme deutlich übertrafen.