xAI Grok-3 supera a GPT4.5 en la arena de modelos de lenguaje

xAI ha publicado recientemente una noticia emocionante: su último modelo de IA, Grok-3, ha destacado en la clasificación de Chatbot Arena. Este modelo, denominado "grok-3preview-02-24", ha demostrado un rendimiento excepcional en varias áreas clave.

El Grok-3-Preview-02-24 de xAI superó a GPT4.5-Preview por un estrecho margen de 1 punto. Grok-3 obtuvo más de 3.000 votos y empató en la clasificación general con el primer puesto. Su rendimiento fue particularmente sobresaliente en indicaciones difíciles, tareas de codificación, problemas matemáticos, escritura creativa, seguimiento de instrucciones y manejo de consultas largas. Chatbot Arena es una plataforma de crowdsourcing que utiliza preferencias humanas para evaluar modelos lingüísticos grandes (LLM), empleando un sistema de clasificación Elo para proporcionar una medición completa del rendimiento.

Este logro marca un progreso significativo para xAI y su fundador, Elon Musk, en el campo del desarrollo de la IA. Musk siempre ha abogado por el desarrollo de una IA potente y alineada con los valores humanos. El éxito de Grok-3 en esta prueba de referencia destaca las capacidades del modelo y el avance de xAI en el competitivo campo de la IA.

Cabe destacar que "grok-3preview-02-24" se describe como el último modelo de producción, pero la inclusión de "preview" en su nombre podría indicar que todavía está en fase de prueba. Este detalle podría suscitar un debate sobre su completa disponibilidad para producción.

Noticias de IA

xAI Grok-3 supera a GPT4.5 en la arena de modelos de lenguaje

AIbase基地