La empresa de inteligencia artificial de Elon Musk, xAI, lanzó el lunes su último modelo de lenguaje, Grok3, marcando un avance significativo en el campo de la IA. Según Musk, el nuevo modelo requiere diez veces más capacidad de computación que su predecesor, utilizando un centro de datos en Memphis equipado con aproximadamente 200.000 GPU.

QQ_1739931524842.png

La serie de modelos Grok3 incluye varias variantes, entre ellas una versión simplificada diseñada para aumentar la velocidad a costa de cierta precisión. Además, el nuevo modelo de "razonamiento" está específicamente diseñado para resolver problemas matemáticos y científicos. Los usuarios pueden ajustar estas funciones a través de las configuraciones "Pensamiento" y "Cerebro" en la interfaz de Grok. xAI afirma que esta versión aún no está finalizada, el modelo sigue en entrenamiento y el equipo planea realizar mejoras en las próximas semanas.

Según datos de la plataforma de evaluación comparativa de IA lmarena.ai, Grok3 obtuvo una puntuación superior a 1400 en el ámbito de los chatbots, convirtiéndose en líder y superando a los modelos de OpenAI, Anthropic y Google en todas las categorías, incluida la programación. Sin embargo, el rendimiento real puede diferir de los resultados de las pruebas comparativas. Por ejemplo, aunque Claude3.5Sonnet obtuvo una puntuación inferior a la de algunos modelos en las pruebas comparativas de codificación, muchos usuarios lo consideran una mejor opción para tareas de programación.

Andrej Karpathy, fundador de OpenAI, obtuvo acceso anticipado a Grok3 y elogió la capacidad de razonamiento lógico del modelo. La función "Pensamiento" logró manejar tareas complejas, como calcular los FLOPS de entrenamiento de GPT-2 o crear una cuadrícula hexagonal para un juego de mesa, capacidades que antes solo estaban disponibles en los modelos de gama alta o1-pro de OpenAI. Además, esta función mejoró la precisión de las operaciones matemáticas básicas, como el conteo de letras y la comparación de decimales.

En cuanto a la nueva función de búsqueda, Karpathy señaló que la calidad de DeepSearch es comparable a la de las herramientas de investigación de Perplexity, proporcionando respuestas relevantes sobre temas como los próximos productos de Apple y la dinámica de las acciones de Palantir. Sin embargo, también encontró algunos problemas evidentes: el modelo a veces genera URL falsas, hace afirmaciones sin fundamento y solo cita publicaciones de X bajo indicaciones específicas.

Parece carecer también de conciencia de su propia existencia, omitiendo la posición de xAI entre los principales laboratorios de IA. Estas limitaciones hacen que DeepSearch aún no alcance la calidad de la "investigación profunda" de OpenAI y muestra un rendimiento deficiente en cuestiones de humor y ética.