La startup norvégienne 1X Technologies a récemment annoncé des progrès significatifs dans le développement de modèles du monde basés sur l'intelligence artificielle pour les robots. En termes simples, ces modèles fonctionnent comme des terrains d'essai virtuels pour les robots, leur permettant d'être testés et améliorés dans diverses situations, sans avoir besoin de tests physiques réels.
1X considère que c'est la clé pour résoudre le « problème robotique » – à savoir comment évaluer de manière fiable les robots entraînés à effectuer plusieurs tâches dans des environnements changeants. Prenons l'exemple d'un robot capable de plier des t-shirts : ses performances varient sur 50 jours, et les succès sont souvent éphémères.
1X explique que même pour des robots du même modèle, les performances fluctuent considérablement en fonction des changements d'environnement, ce qui rend les évaluations réelles rigoureuses extrêmement difficiles.
Pour entraîner ses modèles du monde, 1X a collecté des milliers d'heures de vidéos montrant son robot humanoïde EVE effectuant diverses tâches dans des environnements domestiques et de bureau. Grâce à l'apprentissage automatique, le modèle peut désormais prédire raisonnablement la réaction des objets et de l'environnement aux actions du robot. Même pour les actions non programmées explicitement, le modèle génère des sorties visuelles crédibles, comme apprendre à éviter le contact avec les humains et les objets.
Actuellement, le modèle de 1X est capable de gérer des interactions physiques complexes, telles que saisir et soulever des objets, ouvrir des portes et des tiroirs, manipuler des matériaux déformables comme des vêtements, et même plier des t-shirts.
La valeur principale de leurs modèles du monde réside dans la simulation des interactions avec les objets. Par exemple, dans les générations suivantes, le modèle recevra la même image initiale et trois ensembles d'actions différents pour saisir une boîte. Dans chaque cas, la boîte saisie sera soulevée et déplacée avec le mouvement du bras robotique, tandis que les autres boîtes resteront en place.
Néanmoins, 1X reconnaît certaines limitations. Par exemple, le modèle a parfois du mal à maintenir la cohérence des couleurs et des formes des objets, ou à simuler avec précision les phénomènes physiques. La capacité à s'auto-reconnaître dans un miroir reste également peu fiable.
Malgré ces défis, 1X considère ces modèles du monde comme une étape importante dans le développement et l'entraînement de robots polyvalents. Pour accélérer les progrès, la société propose également un ensemble de données, des modèles pré-entraînés et des récompenses via le « 1X World Model Challenge ».
L'objectif à long terme de 1X est d'utiliser directement les modèles du monde pour l'entraînement des robots, ce qui apporterait un gain d'efficacité considérable par rapport aux tests réels. Pour atteindre cet objectif, elle recrute activement des experts en intelligence artificielle. Plus tôt cette année, 1X a également réussi à lever 100 millions de dollars pour le lancement commercial de son robot humanoïde domestique Neo, un financement soutenu par des leaders du secteur comme OpenAI, témoignant des grandes attentes placées dans la technologie de 1X.
Outre 1X, Nvidia investit massivement dans les robots humanoïdes. La société a récemment lancé une méthode d'entraînement utilisant l'Apple Vision Pro. Jim Fan, chercheur chez Nvidia, estime que la robotique connaîtra un « moment GPT-3 » dans les années à venir.