Depuis longtemps, les chercheurs rêvent de robots humanoïdes capables de mouvements aussi fluides et agiles que ceux des humains, voire supérieurs. Cependant, les différences physiques entre les environnements simulés et le monde réel représentent un défi majeur pour la réalisation de mouvements corporels coordonnés et agiles chez les robots. Les méthodes traditionnelles d'identification des systèmes et de randomisation du domaine nécessitent souvent des réglages de paramètres fastidieux, ou conduisent à des mouvements robotiques trop prudents, au détriment de l'agilité. Une nouvelle approche, baptisée ASAP (Aligning Simulation and Real Physics), révolutionne le domaine en alignant habilement les caractéristiques physiques de la simulation et de la réalité, permettant ainsi aux robots humanoïdes de maîtriser des compétences motrices corporelles plus agiles.

image.png

Le cadre ASAP se divise en deux phases clés. Dans un premier temps, lors de la phase de pré-entraînement, les chercheurs utilisent des données vidéo de mouvements humains, les remappant sur un robot humanoïde, puis entraînent le robot à reproduire ces mouvements dans un environnement simulé. Cependant, l'application directe des stratégies entraînées en simulation à un robot réel entraîne souvent une baisse de performance en raison des différences dynamiques entre l'environnement simulé et le monde réel. Pour résoudre ce problème, ASAP passe à la deuxième phase : le post-entraînement. Dans cette phase, les chercheurs font exécuter au robot les mouvements pré-entraînés dans le monde réel et enregistrent les trajectoires de mouvement réelles du robot.

Ensuite, ASAP utilise ces données de mouvement du monde réel pour reproduire le mouvement du robot dans le simulateur. En raison des différences entre l'environnement simulé et le monde réel, les trajectoires de mouvement simulées s'écartent souvent des trajectoires de mouvement réelles. Cette différence fournit un signal d'apprentissage précieux. ASAP entraîne un « modèle de mouvement différentiel » capable d'apprendre et de compenser les différences dynamiques entre la simulation et la réalité. Ce modèle agit comme un « correcteur », corrigeant les lacunes du simulateur pour le rapprocher des caractéristiques physiques du monde réel. Enfin, les chercheurs intègrent ce « modèle de mouvement différentiel » au simulateur et l'utilisent pour affiner la stratégie de suivi de mouvement pré-entraînée, afin que les mouvements du robot s'adaptent mieux aux caractéristiques physiques du monde réel. La stratégie ainsi affinée peut être directement déployée sur le robot réel, sans avoir besoin du « modèle de mouvement différentiel ».

Pour valider l'efficacité du cadre ASAP, les chercheurs ont mené plusieurs expériences, notamment des transferts entre différents simulateurs et des tests sur un robot humanoïde réel Unitree G1. Les résultats montrent qu'ASAP améliore considérablement l'agilité et la coordination corporelle du robot dans divers mouvements dynamiques. Comparé aux méthodes traditionnelles d'identification des systèmes, de randomisation du domaine et d'apprentissage différentiel dynamique, ASAP réduit considérablement l'erreur de suivi de mouvement.

Le succès d'ASAP réside dans sa capacité à combler efficacement le fossé entre l'environnement simulé et le monde réel, permettant aux robots humanoïdes entraînés en simulation de démontrer une grande agilité dans le monde réel. Cela ouvre de nouvelles perspectives pour le développement de robots humanoïdes plus agiles et polyvalents.

Technologies clés du cadre ASAP :

Pré-entraînement utilisant des données de mouvement humain : transformation des mouvements agiles humains en objectifs d'apprentissage pour le robot, fournissant des données de mouvement de haute qualité.

Entraînement du modèle de mouvement différentiel : compensation dynamique des lacunes du simulateur en apprenant les différences entre le monde réel et l'environnement simulé, améliorant ainsi la précision de la simulation.

Ajustement fin de la stratégie basé sur le modèle de mouvement différentiel : adaptation de la stratégie du robot aux caractéristiques physiques du monde réel, pour des performances motrices supérieures.

Validation expérimentale du cadre ASAP :

Lors des transferts entre simulateurs, ASAP réduit considérablement l'erreur de suivi de mouvement, surpassant les autres méthodes de référence.

Lors des tests sur un robot réel, ASAP améliore également considérablement les performances motrices du robot, lui permettant d'effectuer des mouvements agiles complexes.

Cette étude explore également les facteurs clés de l'entraînement du modèle de mouvement différentiel, notamment la taille de l'ensemble de données, la durée de l'entraînement et la pondération des normes de mouvement. De plus, les chercheurs ont comparé différentes stratégies d'utilisation du modèle de mouvement différentiel, confirmant finalement que la méthode d'ajustement fin par apprentissage par renforcement permet d'obtenir les meilleures performances.

Bien qu'ASAP ait réalisé des progrès remarquables, il présente encore certaines limitations, telles que les contraintes matérielles, la dépendance aux systèmes de capture de mouvement et les importants besoins en données. Les futures recherches pourraient porter sur le développement d'architectures de stratégies capables de détecter les dommages matériels, l'utilisation de l'estimation de pose sans marquage ou la fusion de capteurs embarqués pour réduire la dépendance aux systèmes de capture de mouvement, et l'exploration de techniques d'adaptation plus efficaces pour les modèles de mouvement différentiels.

L'arrivée du cadre ASAP apporte un nouvel espoir au domaine de la robotique humanoïde. En résolvant habilement les problèmes de différences dynamiques entre la simulation et la réalité, ASAP permet aux robots humanoïdes de maîtriser des compétences motrices plus agiles et coordonnées, jetant les bases d'une large application future des robots humanoïdes dans le monde réel.

Adresse du projet : https://agile.human2humanoid.com/

Adresse de l'article : https://arxiv.org/pdf/2502.01143