Elon Musks KI-Unternehmen xAI hat am Montag sein neuestes Sprachmodell Grok3 veröffentlicht, ein bedeutender Fortschritt im Bereich der künstlichen Intelligenz. Laut Musk benötigt das neue Modell die zehnfache Rechenleistung seines Vorgängers und nutzt ein Rechenzentrum in Memphis mit etwa 200.000 GPUs.
Die Grok3-Modellreihe umfasst verschiedene Varianten, darunter eine abgespeckte Version, die zwar schneller ist, aber an Genauigkeit einbüßt. Ein neues „Inferenz“-Modell ist speziell für die Lösung mathematischer und wissenschaftlicher Probleme konzipiert. Über die Einstellungen „Denken“ und „Gehirn“ in der Grok-Oberfläche können Benutzer diese Funktionen anpassen. xAI gibt an, dass diese Version noch nicht final ist, das Modell wird kontinuierlich weiter trainiert und das Team plant Verbesserungen in den kommenden Wochen.
Laut Daten der KI-Benchmark-Plattform lmarena.ai erreicht Grok3 einen Score von über 1400 im Bereich Chatbots und ist damit führend, übertrifft Modelle von OpenAI, Anthropic und Google in allen Kategorien, einschließlich Programmierung. Die tatsächliche Leistung kann jedoch von den Benchmark-Ergebnissen abweichen. Beispielsweise schneidet Claude3.5Sonnet in Codier-Benchmarks schlechter ab als einige andere Modelle, wird aber von vielen Nutzern dennoch als bessere Wahl für Programmieraufgaben angesehen.
OpenAI-Gründer Andrej Karpathy hatte frühzeitig Zugriff auf Grok3 und lobte die logischen Schlussfolgerungsfähigkeiten des Modells. Die „Denken“-Funktion bewältigt komplexe Aufgaben erfolgreich, wie z. B. die Berechnung der Trainings-FLOPs von GPT-2 oder die Erstellung eines sechseckigen Gitters für ein Brettspiel – Fähigkeiten, die bisher nur den High-End-Modellen von OpenAI wie o1-pro vorbehalten waren. Darüber hinaus verbessert diese Funktion die Genauigkeit bei grundlegenden mathematischen Operationen wie dem Zählen von Buchstaben und dem Vergleichen von Dezimalzahlen.
Im Hinblick auf die neue Suchfunktion merkte Karpathy an, dass die Qualität von DeepSearch mit den Forschungstools von Perplexity vergleichbar ist und relevante Antworten zu Themen wie kommenden Apple-Produkten und der Aktienentwicklung von Palantir liefern kann. Er stellte jedoch auch einige deutliche Mängel fest: Das Modell generiert manchmal falsche URLs, macht unbelegte Behauptungen und bezieht sich nur bei bestimmten Eingabeaufforderungen auf X-Posts.
Es scheint auch ein mangelndes Bewusstsein für seine eigene Existenz zu haben und lässt die Position von xAI unter den wichtigsten KI-Laboren aus. Diese Einschränkungen verhindern, dass DeepSearch das Qualitätsniveau von OpenAIs „Deep Research“ erreicht, und es zeigt Schwächen in Bezug auf Humor und ethische Fragen.