Récemment, la compétition entre Google et OpenAI s'est intensifiée. Un jour seulement après que le nouveau GPT-4o ait atteint le sommet du classement de l'IA, Google a lancé son dernier modèle expérimental, Gemini-Exp-1121, lui ravivant rapidement la première place. Il y a une semaine à peine, Google avait publié Gemini-Exp-1114, ce qui semble indiquer une réactivité très rapide de Google face aux avancées d'OpenAI.

image.png

Jack Rae, le scientifique en chef de Google DeepMind, a qualifié cela de « guerre éclair », suggérant que la vitesse d'itération de l'entraînement ultérieur est plus rapide que le pré-entraînement.

Selon les informations officielles, Gemini-Exp-1121 a connu des améliorations significatives à plusieurs niveaux, notamment en termes de capacité de codage, de raisonnement et de compréhension visuelle. De plus, le modèle a atteint un niveau de contrôle du style sur les invites complexes comparable aux meilleurs modèles actuels, o1-preview et New Sonnet3.5.

Lors de tests pratiques, Gemini-Exp-1121 a également surpassé le nouveau GPT-4o en matière de compréhension de bandes dessinées, fournissant des réponses plus complètes et utilisant clairement des sous-titres et du texte en gras pour présenter les informations. Dans le problème classique de logique du passage de la rivière des animaux, Gemini-Exp-1121 a fourni une réponse entièrement correcte, démontrant une capacité de raisonnement logique supérieure. Le nouveau GPT-4o, quant à lui, a commis quelques erreurs.

Parallèlement, OpenAI développe activement de nouvelles fonctionnalités. Récemment, le code d'une fonction « caméra en direct » (Live Camera) a été découvert dans la dernière version de ChatGPT, marquant une avancée dans la reconnaissance vocale et visuelle. Les utilisateurs d'OpenAI utilisant le mode vocal avancé ont été les premiers à expérimenter cette fonctionnalité, ce qui suggère une volonté d'étendre son utilisation à l'avenir.

On peut prévoir que l'année prochaine, le principal mode d'interaction avec les Chatbots passera progressivement des conversations textuelles traditionnelles à la voix et à des services d'agents plus intelligents. Ce changement pourrait être impulsé par le lancement de la fonctionnalité « caméra en direct ».

Points clés :

📈 Le nouveau modèle de Google, Gemini-Exp-1121, a rapidement dépassé GPT-4o pour reprendre la tête du classement de l'IA.

🔍 Gemini-Exp-1121 a montré des améliorations significatives en codage, raisonnement et compréhension visuelle.

🎥 OpenAI développe une fonctionnalité « caméra en direct », qui pourrait révolutionner la façon dont nous interagissons avec l'IA.