Los datos muestran que los modelos Grok-2 y Grok-Mini del equipo xAI han entrado oficialmente en la clasificación LMSys Arena de chatbots, con Grok-2 ocupando el segundo lugar. Este logro supera al GPT-4o de OpenAI (de mayo) y lo coloca a la par del modelo Gemini más reciente, respaldado por los votos de más de 6000 usuarios de la comunidad.

image.png

Cabe destacar que Grok-2 ha demostrado un rendimiento excepcional en tareas matemáticas, obteniendo el primer lugar en esta categoría. También obtuvo el segundo lugar en varias otras tareas, incluyendo instrucciones complejas, programación y seguimiento de instrucciones. Por otro lado, Grok-2-Mini entró en la clasificación en quinto lugar, mostrando un rendimiento sólido.

Grok-2-Mini también ha experimentado una mejora significativa en la velocidad, funcionando ahora el doble de rápido que antes. Esta mejora se debe al equipo de inferencia de xAI, que reescribió completamente la pila de inferencia utilizando SGLang para lograr una inferencia multi-host más eficiente y una mayor precisión. Además, el equipo introdujo nuevos algoritmos de cómputo y comunicación, así como una mejor programación por lotes y técnicas de cuantificación, mejorando aún más el rendimiento general del modelo.

Aunque algunos dudan del rendimiento de Grok-2 y consideran que el GPT-4o de OpenAI es superior, muchos usuarios han informado que Grok-2 funciona excepcionalmente bien en tareas de programación y matemáticas. Los modelos de la serie Grok-2 se lanzaron este mes como versión beta y están disponibles para los usuarios a través de la plataforma X. Además, el modelo admite la creación de imágenes utilizando el modelo de generación de imágenes FLUX.1.

Puntos clave:

✨ Grok-2 obtuvo el segundo lugar en la clasificación LMSys de chatbots, superando a GPT-4o (mayo) y situándose a la par de Gemini.

🚀 Grok-2 obtuvo excelentes resultados en tareas matemáticas, alcanzando el primer lugar y ocupando los primeros puestos en otras tareas.

💡 Grok-2-Mini ha duplicado su velocidad, mejorando aún más su rendimiento.