La start-up robotique 1X Technologies a développé un nouveau modèle génératif qui améliore l'efficacité de l'entraînement des systèmes robotiques dans des simulations. La société a annoncé ce modèle dans un récent article de blog, résolvant ainsi l'un des défis majeurs de la robotique : apprendre un « modèle du monde » (1X World Model) capable de prédire comment le monde réagit et change en fonction des actions du robot.
À partir d'une même séquence d'images initiales, ce modèle du monde peut imaginer plusieurs scénarios futurs en fonction de différentes propositions d'actions.
Cette capacité lui permet de prédire des interactions d'objets complexes, telles que le mouvement des corps rigides, les effets de chute d'objets, et les interactions avec des objets déformables (comme des rideaux, des vêtements) et des objets articulés (comme des portes, des tiroirs).
L'évaluation est un défi très concret, souvent négligé, dans la construction de robots polyvalents. Si un robot est entraîné à effectuer 1000 tâches uniques, il est difficile de déterminer si un nouveau modèle apporte une amélioration sur l'ensemble des 1000 tâches. De légères variations de l'environnement, telles que les changements d'arrière-plan et d'éclairage, peuvent rendre les anciens résultats d'expériences obsolètes, un problème encore plus important dans les environnements dynamiques tels que les maisons ou les bureaux.
Pour surmonter ce problème, 1X a adopté une approche nouvelle : construire directement un simulateur à partir de données de capteurs réels afin d'évaluer les politiques robotiques de 1X dans des millions de scénarios. Ce simulateur permet non seulement des tests répétables, mais intègre également la complexité du monde réel.
Au cours de l'entraînement de 1X, des milliers d'heures de données ont été collectées sur des robots humanoïdes effectuant diverses tâches de manipulation mobile dans des maisons et des bureaux. Grâce à ces données, le modèle du monde de 1X peut prédire des vidéos futures en fonction des observations et des actions.
Sous différentes instructions d'action, le modèle peut générer des résultats diversifiés, démontrant ses capacités de simulation robustes des interactions objet-objet. Même sans action spécifique, le modèle peut générer des vidéos logiques, telles que l'identification et l'évitement des personnes et des obstacles lors de la conduite.
De plus, le modèle peut générer des vidéos de tâches plus longues, comme le pliage d'un t-shirt.
Bien sûr, le modèle 1X présente également certains défis, tels que l'incapacité à maintenir la forme et la couleur des objets lors des interactions, ou la disparition d'objets dans certains cas.
De plus, la compréhension des lois de la physique présente certaines limites, par exemple, des objets peuvent parfois flotter dans les airs dans les vidéos générées.
Pour faire progresser la recherche dans ce domaine, 1X publie plus de 100 heures de vidéos vectorisées et un modèle de base pré-entraîné, et lance le concours 1X World Model Challenge, comprenant plusieurs phases et des récompenses en espèces, afin de stimuler davantage de recherches.
Points clés :
🌟 Un modèle du monde est un simulateur virtuel capable de prédire l'interaction entre les actions d'un robot et son environnement.
🤖 Apprenant à partir de données réelles, le modèle permet une évaluation dans des millions de scénarios, améliorant ainsi l'intelligence robotique.
💰 Pour encourager la recherche, le concours 1X World Model Challenge est lancé avec des récompenses financières.