Sundar Pichai, PDG de Google et de sa société mère Alphabet, a annoncé le lancement du dernier modèle d'intelligence artificielle de l'entreprise : Gemini 2.0. Ceci marque une étape importante pour Google dans la construction d'un assistant IA universel. Gemini 2.0 présente des progrès significatifs en matière de traitement d'entrées multimodales et d'utilisation d'outils natifs, permettant aux agents IA de comprendre plus profondément le monde qui les entoure et d'agir pour les utilisateurs sous leur supervision.

Gemini 2.0 s'appuie sur ses prédécesseurs, Gemini 1.0 et 1.5, ce dernier ayant été le premier à offrir des capacités de traitement multimodales natives, capables de comprendre plusieurs types d'informations, notamment le texte, la vidéo, les images, l'audio et le code. Des millions de développeurs utilisent déjà Gemini pour développer, ce qui pousse Google à repenser ses produits, notamment 7 produits utilisés par 2 milliards d'utilisateurs, et à en créer de nouveaux. NotebookLM, un exemple de capacités multimodales et de contexte étendu, a été très apprécié.

微信截图_20241212080452.png

Le lancement de Gemini 2.0 marque l'entrée de Google dans une nouvelle ère des agents. Ce modèle possède des capacités natives de sortie d'images et d'audio, ainsi que des capacités d'utilisation d'outils natifs. Google a commencé à fournir Gemini 2.0 aux développeurs et aux testeurs de confiance, et prévoit une intégration rapide dans ses produits, en commençant par Gemini et la recherche. Dès aujourd'hui, le modèle expérimental Gemini 2.0 Flash est disponible pour tous les utilisateurs de Gemini. Parallèlement, Google lance une nouvelle fonctionnalité appelée Deep Research, qui utilise des capacités de raisonnement avancées et un contexte étendu pour servir d'assistant de recherche, aidant les utilisateurs à explorer des sujets complexes et à rédiger des rapports. Cette fonctionnalité est actuellement disponible dans Gemini Advanced.

La recherche, l'un des produits les plus impactés par l'IA, l'aperçu IA de Google touche désormais un milliard de personnes, leur permettant de poser de nouvelles questions. Il est rapidement devenu l'une des fonctionnalités de recherche les plus populaires de Google. Dans un prochain développement, Google intégrera les capacités de raisonnement avancées de Gemini 2.0 à l'aperçu IA pour résoudre des problèmes plus complexes et à plusieurs étapes, notamment des équations mathématiques avancées, des requêtes multimodales et du codage. Des tests limités ont commencé cette semaine, et un déploiement plus large est prévu début d'année prochaine. Google continuera également à étendre l'aperçu IA à davantage de pays et de langues au cours de l'année à venir.

Google a également présenté les résultats de pointe de ses recherches sur les agents grâce aux capacités multimodales natives de Gemini 2.0. Gemini 2.0 Flash améliore 1.5 Flash, le modèle le plus populaire auprès des développeurs jusqu'à présent, offrant un temps de réponse similaire. Il est à noter que 2.0 Flash surpasse même 1.5 Pro de deux fois plus vite sur des benchmarks clés. 2.0 Flash apporte également de nouvelles capacités. En plus de prendre en charge les entrées multimodales telles que les images, les vidéos et l'audio, 2.0 Flash prend désormais en charge les sorties multimodales, telles que la génération d'images natives mélangées au texte et la synthèse vocale (TTS) multilingue contrôlable. Il peut également appeler nativement des outils tels que la recherche Google, l'exécution de code et des fonctions utilisateur tierces définies par l'utilisateur.

微信截图_20241212080808.png

Gemini 2.0 Flash est désormais disponible pour les développeurs en tant que modèle expérimental. Via Google AI Studio et l'API Gemini de Vertex AI, tous les développeurs peuvent utiliser les entrées multimodales et les sorties textuelles, tandis que la synthèse vocale et la génération d'images natives sont proposées aux partenaires bénéficiant d'un accès anticipé. La disponibilité générale suivra en janvier, ainsi que le lancement de modèles de tailles supplémentaires.

Pour aider les développeurs à créer des applications dynamiques et interactives, Google a également publié une nouvelle API multimodale en temps réel, capable d'accepter des flux audio et vidéo en temps réel et d'utiliser plusieurs outils combinés.

À partir d'aujourd'hui, les utilisateurs de Gemini dans le monde entier peuvent accéder à une version optimisée pour la conversation de l'expérience 2.0 Flash en la sélectionnant dans le menu déroulant des modèles sur les versions web pour ordinateur et mobile. Elle sera bientôt disponible dans l'application mobile Gemini. Début d'année prochaine, Google étendra Gemini 2.0 à davantage de produits Google.