L'équipe de recherche de ByteDance a récemment lancé GR-2 (Generative Robot 2.0), son deuxième grand modèle de robot, suscitant un vif intérêt dans l'industrie. Ce robot intelligent marque non seulement une avancée majeure dans la technologie des grands modèles de robots, mais préfigure également une nouvelle ère pour les applications de robots intelligents.

GR-2 se distingue par son mode d'apprentissage innovant. L'équipe de recherche a adopté une méthode d'entraînement qui imite le développement humain, soumettant GR-2 à une phase d'apprentissage similaire à une « enfance robotique ». Durant la phase de pré-entraînement, GR-2 a « regardé » jusqu'à 38 millions de vidéos Internet provenant de diverses sources de données publiques, couvrant divers contextes quotidiens tels que la maison, l'extérieur et le bureau. Cette méthode d'apprentissage unique par « observation de vidéos » a permis à GR-2 d'acquérir une vaste réserve de connaissances et de comprendre en profondeur les comportements humains quotidiens et les environnements complexes.

image.png

Après un pré-entraînement à grande échelle, l'équipe de développement a utilisé une technique d'ajustement fin spécifique pour améliorer considérablement les capacités de prédiction de mouvement et de génération de vidéos de GR-2. Avec une simple instruction linguistique, comme « prendre la fourchette à gauche de l'assiette blanche », GR-2 peut générer une vidéo d'action précise et accomplir facilement la tâche. Cette capacité ouvre de nouvelles possibilités pour la prise de décision intelligente et les opérations autonomes des robots.

En termes de performances, GR-2 a démontré des résultats impressionnants. Avec l'augmentation de l'échelle du modèle, sa capacité à gérer des tâches complexes et à s'adapter à de nouveaux environnements s'est considérablement améliorée. Lors de tests d'apprentissage multitâches, GR-2 a réussi à accomplir 105 tâches de bureau avec un taux de réussite de 97,7 %. Plus remarquable encore, GR-2 est capable non seulement de gérer les tâches connues, mais aussi de s'adapter rapidement et de trouver des solutions face à des environnements, des objets ou des tâches inconnus.

Un autre point fort de GR-2 est sa capacité de collaboration avec les grands modèles de langage. Par exemple, lorsqu'un utilisateur souhaite une tasse de café, GR-2 peut effectuer de manière autonome l'ensemble du processus, de la prise et du placement de la tasse à la préparation et au service du café, démontrant ainsi un haut niveau d'intelligence et d'automatisation.

GR-2 affiche également d'excellentes performances en termes d'adaptabilité environnementale. Que ce soit pour gérer les variations de position des articles lors de tâches de classification de fruits et légumes, ou pour effectuer une sélection d'objets de bout en bout dans des applications industrielles, GR-2 peut identifier précisément les cibles et accomplir les tâches. Cette flexibilité et cette capacité d'adaptation sont d'une grande valeur pour les applications réelles.

image.png

Bien que GR-2 ait démontré des performances exceptionnelles à plusieurs égards, l'équipe de recherche reconnaît qu'il y a encore place à l'amélioration en termes de diversité des données d'action du monde réel. Cela montre que GR-2 n'est pas seulement un grand modèle de robot statique, mais un agent intelligent capable d'apprendre et de s'adapter continuellement à diverses tâches, avec un potentiel de développement énorme.

L'arrivée de GR-2 ouvre sans aucun doute de nouvelles perspectives pour le domaine de la robotique intelligente. Des services domestiques à l'automatisation industrielle, la technologie présentée par GR-2 devrait avoir un impact profond sur de nombreux domaines. Avec l'amélioration continue de la technologie et l'élargissement des scénarios d'application, nous pouvons raisonnablement nous attendre à ce que GR-2 et des systèmes de robots intelligents similaires révolutionnent nos modes de vie et de travail à l'avenir.

Adresse du projet : https://gr2-manipulation.github.io/