Google DeepMind a dévoilé son arme secrète : Gemini Robotics ! Il ne s'agit pas d'un simple robot aspirateur, mais d'une véritable intégration de l'intelligence artificielle dans un corps physique, permettant aux robots d'agir dans le monde réel avec autant d'efficacité (voire plus) que nous.

Un « multitâche » aux capacités infinies

Gemini Robotics repose sur le modèle avancé Gemini 2.0. Rappelons que Gemini est déjà capable de traiter le texte, les images, l'audio et la vidéo.

Gemini Robotics va plus loin en dotant les robots d'une « superpouvoir » : la capacité de comprendre l'espace physique et d'agir en conséquence. Cela signifie qu'il peut comprendre les instructions textuelles, identifier les images, comprendre la parole, analyser une vidéo explicative et transformer ces informations en actions physiques.

Imaginez : il suffira de quelques mots, ou d'une simple image, pour que le robot s'occupe de vos tâches ménagères. N'est-ce pas excitant ?

Ce qui distingue particulièrement Gemini Robotics, c'est sa capacité de généralisation. Ce n'est pas un robot simple qui exécute des programmes prédéfinis. Grâce aux vastes connaissances de Gemini, il peut comprendre et résoudre des problèmes même face à des objets inconnus, des instructions complexes ou des environnements inédits.

Google affirme fièrement que, lors de tests de généralisation comparatifs, Gemini Robotics a surpassé de plus de deux fois les performances des autres modèles de pointe vision-langage-action. C'est comme un élève brillant qui réussit facilement ses examens et peut résoudre des problèmes concrets. Plus besoin de craindre les pannes de robots en cas d'imprévu !

QQ_1741834367635.png

Un assistant attentif qui « comprend vos pensées »

En termes d'interaction homme-machine, Gemini Robotics fait preuve d'une interactivité étonnante. Il comprend non seulement les instructions courantes, mais réagit également rapidement aux changements d'instructions ou d'environnement.

Plus impressionnant encore, il peut accomplir des tâches de manière autonome après avoir reçu des instructions initiales, sans intervention excessive. Imaginez : vous buvez tranquillement votre café et dites « range la table », et Gemini Robotics s'exécute, gérant avec aisance les imprévus, comme un verre renversé.

Malgré son « QI » élevé, Gemini Robotics possède également un excellent « QE » – sa flexibilité. De nombreuses actions précises, faciles pour les humains, représentent un défi majeur pour les robots traditionnels.

Gemini Robotics, cependant, les maîtrise aisément. Plier du papier, préparer un déjeuner, ou réaliser une salade raffinée : il effectue des mouvements délicats et coordonnés avec précision. Pour un bento personnalisé, il vous suffira peut-être d'un simple menu.

Un « transformateur » hautement adaptable

Plus surprenant encore, Gemini Robotics présente une adaptabilité multiforme. Il n'est pas limité à un seul type de robot. Qu'il s'agisse de la plateforme robotique à deux bras ALOHA 2 ou du robot humanoïde Apollo d'Apptronik, Gemini Robotics s'adapte parfaitement. Cela signifie que nous verrons bientôt une variété de robots intelligents équipés de Gemini Robotics, déployant leurs capacités uniques dans différents domaines.

QQ_1741834392508.png

Outre Gemini Robotics, Google a également lancé Gemini Robotics-ER. « ER » signifie « Embodied Reasoning » (raisonnement incarné).

Ce modèle vise à améliorer la compréhension spatiale du monde physique par le robot et à s'intégrer aux contrôleurs de bas niveau existants. Il améliore considérablement les capacités de Gemini 2.0 en matière d'identification d'objets et de détection 3D.

En combinant le raisonnement spatial et les capacités de codage de Gemini, Gemini Robotics-ER peut même créer « à la volée » de nouvelles fonctionnalités robotiques. Par exemple, en voyant une tasse à café, il peut déterminer la meilleure façon de la saisir et de la déplacer en toute sécurité.

Bien sûr, la sécurité est primordiale lorsque l'IA entre dans le monde réel. Google souligne qu'il a mis en place des mesures de sécurité complètes, du contrôle des moteurs au niveau inférieur à la compréhension sémantique au niveau supérieur.

Gemini Robotics-ER peut interagir avec les contrôleurs de sécurité existants du robot, évaluer la sécurité des actions potentielles et générer des réponses appropriées. Google a également publié un nouvel ensemble de données, ASIMOV, pour évaluer et améliorer la sécurité sémantique de l'IA incarnée et des robots. Il collabore étroitement avec des experts internes et externes, des décideurs politiques et des comités d'éthique et de sécurité pour garantir que le développement de Gemini Robotics respecte les normes éthiques et de sécurité.

Pour accélérer l'application de Gemini Robotics, Google a déjà collaboré avec plusieurs sociétés de robotique, notamment Apptronik, Agile Robots, Agility Robotics, Boston Dynamics et Enchanted Tools. Grâce à ces collaborations avec des leaders de l'industrie, nous pouvons nous attendre à voir bientôt davantage de robots intelligents équipés de Gemini Robotics dans notre vie quotidienne et professionnelle.

Gemini Robotics de Google apporte sans aucun doute une nouvelle dynamique au domaine de l'intelligence artificielle et de la robotique. Ses puissantes capacités de compréhension multimodale, son excellente capacité de généralisation, son interaction homme-machine naturelle et ses compétences opérationnelles exceptionnelles annoncent l'arrivée d'une ère de robots intelligents. Que ce soit une « aubaine pour les travailleurs » ou un « petit » défi professionnel, l'avenir nous le dira ! Après tout, qui ne voudrait pas d'un assistant robotique intelligent et travailleur ?

Blog officiel : https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/