La versión experimental de Gemini (Exp1114) de Google DeepMind ha logrado resultados impresionantes en la plataforma Chatbot Arena. Después de más de una semana de pruebas comunitarias, con más de 6000 votos acumulados, este nuevo modelo ha superado significativamente a sus competidores, demostrando una capacidad asombrosa en varios ámbitos clave.

QQ20241115-094934.jpg

En la puntuación general, Gemini-Exp-1114 ha empatado en el primer lugar con GPT-4-latest con una excelente puntuación superior a 40, superando a la versión anterior líder, GPT-4-preview. Lo más sorprendente es que el modelo ha alcanzado la cima en áreas clave como matemáticas, instrucciones complejas y escritura creativa, mostrando una gran capacidad integral.

En detalle, el progreso de Gemini-Exp-1114 es impresionante:

Ha ascendido del tercer al primer puesto en la clasificación general.

Ha pasado del tercer al primer puesto en la evaluación de habilidades matemáticas.

Ha escalado del cuarto al primer puesto en el procesamiento de instrucciones complejas.

Ha mejorado del segundo al primer puesto en escritura creativa.

También ocupa el primer lugar en el procesamiento visual.

Su nivel de programación ha mejorado del quinto al tercer puesto.

Google AI Studio ya ha lanzado oficialmente esta nueva versión para que los usuarios la prueben. Sin embargo, la comunidad ha expresado preocupación por algunos problemas específicos, como la posible persistencia del límite de 1000 tokens y la gestión de la salida de textos muy largos en aplicaciones reales.

QQ20241115-094642.jpg

Los analistas del sector consideran que este avance significativo muestra que la inversión a largo plazo de Google en IA está dando sus frutos. Curiosamente, el modelo mantiene el cuarto puesto en el control de estilo, lo que podría indicar que el equipo de desarrollo ha empleado principalmente nuevos métodos de post-entrenamiento en lugar de modificar el modelo pre-entrenado.

Este gran avance también ha generado debate sobre la configuración del sector. OpenAI solía lanzar nuevos productos cuando sus competidores publicaban actualizaciones importantes, pero la magnitud del progreso de Google en esta ocasión ha llamado la atención de la industria. Algunos opinan que esto podría anunciar la llegada de Gemini 2, y que la competitividad de Google en el campo de los grandes modelos lingüísticos está aumentando considerablemente.