Google utilise l'IA Gemini pour entraîner ses robots afin d'améliorer leurs capacités de navigation et d'exécution de tâches.

L'équipe de robotique de DeepMind détaille dans une nouvelle étude comment le long contexte de Gemini 1.5 Pro facilite l'interaction des utilisateurs avec le robot RT-2 via des instructions en langage naturel. En filmant des visites vidéo de zones spécifiques, les chercheurs ont utilisé Gemini 1.5 Pro pour permettre au robot de « regarder » les vidéos afin de comprendre son environnement, lui permettant ainsi d'exécuter des commandes basées sur ses observations, comme guider un utilisateur vers une prise électrique pour recharger son appareil.

image.png

DeepMind indique que les robots équipés de Gemini ont réussi à exécuter plus de 50 instructions utilisateur dans une zone d'opération de plus de 9000 pieds carrés, avec un taux de réussite de 90 %.

De plus, les chercheurs ont constaté que Gemini 1.5 Pro permet aux robots de planifier la manière d'exécuter les instructions, et pas seulement la navigation. Par exemple, lorsqu'un utilisateur demande au robot s'il y a sa boisson préférée parmi de nombreuses canettes de soda sur une table, Gemini indique au robot qu'il doit aller vérifier dans le réfrigérateur puis rapporter le résultat à l'utilisateur. DeepMind indique qu'il poursuivra l'investigation de ces résultats.

Selon l'étude, bien que les démonstrations vidéo fournies par Google soient impressionnantes, le traitement de ces instructions par le robot prend entre 10 et 30 secondes. Bien qu'il faille peut-être encore un peu de temps avant que nous partagions nos maisons avec des robots de cartographie d'environnement plus avancés, au moins ceux-ci pourraient être capables de nous aider à retrouver nos clés ou notre portefeuille perdus.

Points clés :

🤖 L'IA Gemini entraîne des robots pour améliorer la navigation et l'exécution des tâches

🧠 Gemini 1.5 Pro permet aux robots d'exécuter des instructions en langage naturel

🔍 L'étude a révélé que Gemini permet aux robots de planifier l'exécution d'instructions allant au-delà de la navigation