Recientemente, la competencia entre Google y OpenAI se ha intensificado. Apenas un día después de que la nueva versión GPT-4o alcanzara la cima de la clasificación de IA, Google lanzó su último modelo experimental, Gemini-Exp-1121, arrebatando rápidamente el primer puesto. Hace apenas una semana, Google lanzó Gemini-Exp-1114, lo que parece indicar una respuesta muy rápida a los movimientos de OpenAI.

image.png

Jack Rae, científico jefe de Google DeepMind, lo describió como una "guerra relámpago", sugiriendo que la velocidad de iteración del entrenamiento posterior es más rápida que la del preentrenamiento.

Según la información oficial, Gemini-Exp-1121 ha experimentado mejoras significativas en varios aspectos, principalmente en la capacidad de codificación, el razonamiento y la comprensión visual. Además, el modelo ha alcanzado un nivel de control de estilo en indicaciones complejas comparable al de los modelos líderes actuales, o1-preview y New Sonnet3.5.

En las pruebas reales, Gemini-Exp-1121 superó a la nueva versión GPT-4o en el procesamiento de la comprensión de cómics; sus respuestas fueron más completas y presentó la información de manera clara utilizando subtítulos y negritas para destacar los puntos clave. En el clásico problema de lógica del cruce del río, Gemini-Exp-1121 respondió correctamente, mostrando una mayor capacidad de razonamiento lógico, mientras que la nueva versión GPT-4o cometió algunos errores.

Simultáneamente, OpenAI está desarrollando activamente nuevas funciones. Recientemente, se ha encontrado código para una función de "cámara en vivo" (Live Camera) en la última versión de ChatGPT, lo que marca un avance en el reconocimiento de voz e imágenes. Los usuarios de OpenAI que utilizan el modo de voz avanzado ya han experimentado esta capacidad, lo que indica la intención de ampliar el uso de esta función en el futuro.

Es previsible que, el año que viene, la principal forma de interacción con los Chatbots evolucione de las conversaciones de texto tradicionales a la voz y a servicios de agentes más inteligentes. Esta transición podría estar impulsada por la introducción de la función de "cámara en vivo".

Puntos clave:

📈 El nuevo modelo de Google, Gemini-Exp-1121, ha superado rápidamente a GPT-4o, recuperando el primer puesto en la clasificación de IA.

🔍 Gemini-Exp-1121 ha mejorado significativamente en codificación, razonamiento y comprensión visual, mostrando un rendimiento excepcional.

🎥 OpenAI está desarrollando la función "cámara en vivo", que podría cambiar la forma de interactuar con la IA en el futuro.