Dans le contexte d'une compétition de plus en plus féroce dans le domaine de l'intelligence artificielle, Google a récemment annoncé le lancement du modèle Gemini 2.0 Flash Thinking. Ce modèle d'inférence multimodale offre une capacité de traitement rapide et transparente, capable de gérer des problèmes complexes. Sundar Pichai, PDG de Google, a déclaré sur le réseau social X : « C'est notre modèle le plus profond à ce jour. »
Selon la documentation des développeurs, Gemini 2 Flash Thinking possède des capacités d'inférence supérieures à la version de base de Gemini 2.0 Flash. Le nouveau modèle prend en charge 32 000 jetons d'entrée (environ 50 à 60 pages de texte) et peut générer des réponses jusqu'à 8 000 jetons. Google indique dans le panneau latéral de son atelier AI que ce modèle est particulièrement adapté à « la compréhension et à l'inférence multimodales » ainsi qu'à « l'encodage ».
Documentation des développeurs : https://ai.google.dev/gemini-api/docs/thinking-mode?hl=fr
Pour le moment, les détails concernant le processus d'entraînement du modèle, son architecture, sa licence et son coût n'ont pas encore été divulgués, mais l'atelier Google AI indique que l'utilisation actuelle du modèle est gratuite (coût par jeton nul).
Une caractéristique notable de Gemini 2.0 est qu'il permet aux utilisateurs d'accéder au processus d'inférence étape par étape via un menu déroulant, une fonctionnalité absente des modèles concurrents tels que o1 et o1 mini d'OpenAI. Cette approche transparente de l'inférence permet aux utilisateurs de comprendre clairement le processus par lequel le modèle arrive à ses conclusions, ce qui résout efficacement le problème de la « boîte noire » de l'IA.
Lors de quelques tests simples, Gemini 2.0 a pu répondre rapidement (en une à trois secondes) et correctement à des questions complexes, telles que le calcul du nombre de lettres « R » dans le mot « fraise ». Dans un autre test, le modèle a comparé systématiquement deux nombres décimaux (9,9 et 9,11) en analysant étape par étape le nombre entier et la partie décimale.
L'agence d'analyse indépendante tierce LM Arena a classé le modèle Gemini 2.0 Flash Thinking comme le meilleur modèle de toutes les catégories de grands modèles de langage.
De plus, le modèle Gemini 2.0 Flash Thinking possède une fonctionnalité native de téléchargement et d'analyse d'images. Contrairement à o1 d'OpenAI, initialement un modèle textuel, qui a ensuite été étendu pour l'analyse d'images et de fichiers. Actuellement, les deux ne peuvent renvoyer que des sorties textuelles.
Bien que les capacités multimodales de Gemini 2.0 Flash Thinking élargissent ses applications potentielles, les développeurs doivent noter que le modèle ne prend pas encore en charge l'intégration avec la recherche Google, ni avec d'autres applications Google ou des outils externes. Les développeurs peuvent expérimenter ce modèle via Google AI Studio et Vertex AI.
Sur un marché de l'IA de plus en plus concurrentiel, le modèle Gemini 2.0 Flash Thinking pourrait marquer une nouvelle ère pour les modèles de résolution de problèmes. Grâce à sa capacité à traiter plusieurs types de données, à fournir un raisonnement visuel et à fonctionner à grande échelle, il représente un concurrent important pour la série OpenAI o1 et d'autres modèles sur le marché de l'IA inférentielle.
Points clés :
🌟 Le modèle Gemini 2.0 Flash Thinking possède de puissantes capacités d'inférence, prenant en charge 32 000 jetons d'entrée et 8 000 jetons de sortie.
💡 Le modèle fournit un raisonnement étape par étape via un menu déroulant, améliorant la transparence et résolvant le problème de la « boîte noire » de l'IA.
🖼️ Il possède une capacité native de téléchargement et d'analyse d'images, étendant les scénarios d'application multimodale.