Google lance Gemini Robotics, un modèle de contrôle robotique permettant aux robots de penser et d'agir comme des humains

AIbase基地

Publié leActualités IA · 9 minutes de lecture · Mar 13, 2025

Google DeepMind a dévoilé son arme secrète : Gemini Robotics ! Il ne s'agit pas d'un simple robot aspirateur, mais d'une véritable intégration de l'intelligence artificielle dans un corps physique, permettant aux robots d'agir dans le monde réel avec autant d'efficacité (voire plus) que nous.

Un « multitâche » aux capacités infinies

Gemini Robotics repose sur le modèle avancé Gemini 2.0. Rappelons que Gemini est déjà capable de traiter le texte, les images, l'audio et la vidéo.

Gemini Robotics va plus loin en dotant les robots d'une « superpouvoir » : la capacité de comprendre l'espace physique et d'agir en conséquence. Cela signifie qu'il peut comprendre les instructions textuelles, identifier les images, comprendre la parole, analyser une vidéo explicative et transformer ces informations en actions physiques.

Imaginez : il suffira de quelques mots, ou d'une simple image, pour que le robot s'occupe de vos tâches ménagères. N'est-ce pas excitant ?

Ce qui distingue particulièrement Gemini Robotics, c'est sa capacité de généralisation. Ce n'est pas un robot simple qui exécute des programmes prédéfinis. Grâce aux vastes connaissances de Gemini, il peut comprendre et résoudre des problèmes même face à des objets inconnus, des instructions complexes ou des environnements inédits.

Google affirme fièrement que, lors de tests de généralisation comparatifs, Gemini Robotics a surpassé de plus de deux fois les performances des autres modèles de pointe vision-langage-action. C'est comme un élève brillant qui réussit facilement ses examens et peut résoudre des problèmes concrets. Plus besoin de craindre les pannes de robots en cas d'imprévu !

Un assistant attentif qui « comprend vos pensées »

En termes d'interaction homme-machine, Gemini Robotics fait preuve d'une interactivité étonnante. Il comprend non seulement les instructions courantes, mais réagit également rapidement aux changements d'instructions ou d'environnement.

Plus impressionnant encore, il peut accomplir des tâches de manière autonome après avoir reçu des instructions initiales, sans intervention excessive. Imaginez : vous buvez tranquillement votre café et dites « range la table », et Gemini Robotics s'exécute, gérant avec aisance les imprévus, comme un verre renversé.

Malgré son « QI » élevé, Gemini Robotics possède également un excellent « QE » – sa flexibilité. De nombreuses actions précises, faciles pour les humains, représentent un défi majeur pour les robots traditionnels.

Gemini Robotics, cependant, les maîtrise aisément. Plier du papier, préparer un déjeuner, ou réaliser une salade raffinée : il effectue des mouvements délicats et coordonnés avec précision. Pour un bento personnalisé, il vous suffira peut-être d'un simple menu.

Un « transformateur » hautement adaptable

Plus surprenant encore, Gemini Robotics présente une adaptabilité multiforme. Il n'est pas limité à un seul type de robot. Qu'il s'agisse de la plateforme robotique à deux bras ALOHA 2 ou du robot humanoïde Apollo d'Apptronik, Gemini Robotics s'adapte parfaitement. Cela signifie que nous verrons bientôt une variété de robots intelligents équipés de Gemini Robotics, déployant leurs capacités uniques dans différents domaines.

Outre Gemini Robotics, Google a également lancé Gemini Robotics-ER. « ER » signifie « Embodied Reasoning » (raisonnement incarné).

Ce modèle vise à améliorer la compréhension spatiale du monde physique par le robot et à s'intégrer aux contrôleurs de bas niveau existants. Il améliore considérablement les capacités de Gemini 2.0 en matière d'identification d'objets et de détection 3D.

En combinant le raisonnement spatial et les capacités de codage de Gemini, Gemini Robotics-ER peut même créer « à la volée » de nouvelles fonctionnalités robotiques. Par exemple, en voyant une tasse à café, il peut déterminer la meilleure façon de la saisir et de la déplacer en toute sécurité.

Bien sûr, la sécurité est primordiale lorsque l'IA entre dans le monde réel. Google souligne qu'il a mis en place des mesures de sécurité complètes, du contrôle des moteurs au niveau inférieur à la compréhension sémantique au niveau supérieur.

Gemini Robotics-ER peut interagir avec les contrôleurs de sécurité existants du robot, évaluer la sécurité des actions potentielles et générer des réponses appropriées. Google a également publié un nouvel ensemble de données, ASIMOV, pour évaluer et améliorer la sécurité sémantique de l'IA incarnée et des robots. Il collabore étroitement avec des experts internes et externes, des décideurs politiques et des comités d'éthique et de sécurité pour garantir que le développement de Gemini Robotics respecte les normes éthiques et de sécurité.

Pour accélérer l'application de Gemini Robotics, Google a déjà collaboré avec plusieurs sociétés de robotique, notamment Apptronik, Agile Robots, Agility Robotics, Boston Dynamics et Enchanted Tools. Grâce à ces collaborations avec des leaders de l'industrie, nous pouvons nous attendre à voir bientôt davantage de robots intelligents équipés de Gemini Robotics dans notre vie quotidienne et professionnelle.

Gemini Robotics de Google apporte sans aucun doute une nouvelle dynamique au domaine de l'intelligence artificielle et de la robotique. Ses puissantes capacités de compréhension multimodale, son excellente capacité de généralisation, son interaction homme-machine naturelle et ses compétences opérationnelles exceptionnelles annoncent l'arrivée d'une ère de robots intelligents. Que ce soit une « aubaine pour les travailleurs » ou un « petit » défi professionnel, l'avenir nous le dira ! Après tout, qui ne voudrait pas d'un assistant robotique intelligent et travailleur ?

Blog officiel : https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/

智谱发布新一代开源 GLM 模型：320亿参数，性能媲美 DeepSeek R1，速度提升 8 倍

智谱 AI 发布了其新一代开源大型语言模型 GLM，拥有 320 亿参数。性能测试表明，该模型在多个基准测试中与 DeepSeek R1 的表现相当，同时速度提升了 8 倍。这是一个令人瞩目的成就，标志着开源大型语言模型技术取得了显著进展。

SignalFire lève plus d'un milliard de dollars pour financer les startups d'IA appliquée

La société de capital-risque SignalFire a annoncé avoir levé plus d'un milliard de dollars pour soutenir la prochaine génération de startups technologiques de phase initiale, en particulier celles qui innovent dans le domaine de l'intelligence artificielle (IA) appliquée. Ces fonds seront répartis entre plusieurs programmes de SignalFire, notamment les tours de financement Seed, Early Stage, High Residency (XIR) et Opportunités. La société a déclaré que ces capitaux serviront à soutenir les fondateurs qui recherchent des innovations révolutionnaires capables de « remodeler des catégories entières ». Source de l'image : Image générée par IA, fournisseur de services d'autorisation d'images Midjourney

Meta relance l'entraînement de son IA en utilisant les contenus publics des utilisateurs européens

Meta a récemment annoncé qu'il commencerait à utiliser le contenu public provenant d'utilisateurs européens pour entraîner ses modèles d'intelligence artificielle. Cette décision marque une reprise après une suspension de l'entraînement l'année dernière en raison de problèmes de confidentialité des données. Meta précise que cet entraînement de l'IA s'appuiera principalement sur les publications et commentaires publics partagés par des utilisateurs adultes dans les 27 pays de l'Union européenne. De plus, les interactions des utilisateurs avec Meta IA, telles que les questions et les requêtes, seront également utilisées pour entraîner et améliorer ses modèles d'IA. Source de l'image : Image générée par IA, fournisseur de services d'autorisation d'images Midj

Miser sur l'avenir de l'IA à mille milliards de dollars : Nvidia construit pour la première fois un supercalculateur IA sur son territoire

Le géant des puces d'intelligence artificielle Nvidia a annoncé qu'il collaborerait avec des partenaires de fabrication pour concevoir et construire pour la première fois aux États-Unis son supercalculateur IA, marquant une étape importante dans sa stratégie de chaîne d'approvisionnement. Nvidia a commandé plus d'un million de pieds carrés d'espace de fabrication pour la production et les tests de sa dernière puce IA Blackwell en Arizona, et la fabrication et les tests de supercalculateurs IA au Texas. Les partenaires écosystémiques de Nvidia devraient investir 500 millions de dollars pour soutenir la construction de ces infrastructures IA. Bien que Nvidia—

L'assistant IA Lazzie Seller de Lazada, filiale d'Alibaba, aide les commerçants à gérer leurs activités

Lazada, plateforme e-commerce d'Asie du Sud-Est appartenant au groupe Alibaba, a annoncé le 14 avril le lancement de Lazzie Seller, un assistant basé sur l'intelligence artificielle visant à améliorer l'efficacité opérationnelle et la compétitivité des commerçants. Cet assistant IA s'appuie sur la solide expérience de Lazada dans le domaine du e-commerce et utilise le traitement du langage naturel pour répondre rapidement aux diverses questions des commerçants liées à leur activité quotidienne. Ses principales fonctions incluent la navigation fonctionnelle, l'évaluation des risques de la boutique et la fourniture de conseils professionnels, permettant ainsi aux commerçants de réduire leurs coûts d'exploitation.

SYMPLEX : le premier modèle d'apprentissage profond pour la découverte de gènes au monde, développé par l'Université de Pékin, révolutionne la biofabrication

L'Université de Pékin a développé SYMPLEX, un modèle d'apprentissage profond révolutionnaire pour la découverte de gènes. Ce modèle ouvre la voie à une nouvelle ère de la biofabrication, en accélérant le processus de découverte et de conception de nouvelles molécules et processus biologiques.

Les actualités générées par l'IA rencontrent une résistance publique : la moitié des Américains refusent les reportages écrits par des machines

Un sondage révèle qu'un nombre important d'Américains expriment leur méfiance envers les informations générées par l'intelligence artificielle. Plus de la moitié de la population interrogée se déclare opposée à la consommation de reportages écrits par des machines, soulignant les préoccupations concernant la fiabilité et l'objectivité de ces contenus.

Actualités IA

IA Quotidien

Chronologie de l'IA

Al hardware

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu