Daten zeigen, dass die beiden Modelle Grok-2 und Grok-Mini des xAI-Teams in der LMSys Chatbot Arena Rangliste eingestiegen sind. Grok-2 erreichte dabei einen hervorragenden zweiten Platz, übertraf damit sogar OpenAIs GPT-4o (Mai) und liegt gleichauf mit dem neuesten Gemini-Modell. Dieses Ergebnis wird durch die positiven Stimmen von über 6000 Community-Nutzern unterstützt.

image.png

Besonders hervorzuheben ist die Leistung von Grok-2 bei mathematischen Aufgaben, wo es den ersten Platz belegte. Auch in mehreren anderen Bereichen, wie komplexen Anweisungen, Programmierung und Anweisungsbefolgung, erreichte es den zweiten Platz.

Grok-2-Mini erreichte mit dem fünften Platz ebenfalls eine beachtliche Position in der Rangliste. Darüber hinaus wurde die Geschwindigkeit von Grok-2-Mini deutlich verbessert und ist jetzt doppelt so schnell wie zuvor. Diese enorme Verbesserung ist dem xAI-Inferenzteam zu verdanken, das den Inferenz-Stack komplett neu geschrieben hat. Durch die Nutzung von SGLang wurde eine effizientere Multi-Host-Inferenz und eine höhere Genauigkeit erreicht. Zusätzlich wurden neue Algorithmen für die Berechnung und Kommunikation, eine verbesserte Batch-Scheduling und Quantisierungstechniken eingeführt, um die Gesamtleistung des Modells weiter zu steigern.

Obwohl einige die Leistung von Grok-2 skeptisch sehen und OpenAIs GPT-4o für überlegen halten, berichten viele Nutzer von hervorragenden Ergebnissen bei Programmier- und Mathematikaufgaben. Die Grok-2-Modellreihe wurde diesen Monat als Beta-Version veröffentlicht und ist über die X-Plattform verfügbar. Das Modell unterstützt außerdem die Bildgenerierung mit dem FLUX.1 Bildgenerierungsmodell.

Highlights:

✨ Grok-2 erreichte den zweiten Platz in der LMSys Chatbot-Rangliste, übertraf GPT-4o (Mai) und liegt gleichauf mit Gemini.

🚀 Grok-2 erzielte herausragende Ergebnisse bei mathematischen Aufgaben und belegte den ersten Platz. Es erreichte auch in vielen anderen Aufgaben Top-Platzierungen.

💡 Grok-2-Mini wurde um das Doppelte beschleunigt, was die Leistung deutlich verbessert.