Lange Zeit träumten die Menschen davon, dass humanoide Roboter so beweglich und wendig wie Menschen, ja sogar noch besser, sein könnten. Die Simulation der vollständigen Körperkoordination und agilen Bewegungen stellt jedoch aufgrund der physikalischen Unterschiede zwischen simulierter und realer Welt eine große Herausforderung dar. Traditionelle Methoden der Systemidentifikation und der Domänenrandomisierung erfordern oft aufwendige Parameteranpassungen oder führen zu übermäßig vorsichtigen, wenig agilen Bewegungen des Roboters. Nun wurde ein neuartiges Framework namens ASAP (Aligning Simulation and Real Physics) vorgestellt, das durch geschickte Angleichung der simulierten und realen physikalischen Eigenschaften humanoiden Robotern ermöglicht, flexiblere Ganzkörperbewegungsfähigkeiten zu erlernen.
Das ASAP-Framework besteht aus zwei Schlüsselphasen. Zuerst werden in der Vortrainings-Phase Daten von menschlichen Bewegungsvideos verwendet, um diese Bewegungen auf einen humanoiden Roboter zu übertragen. Anschließend wird der Roboter in einer simulierten Umgebung trainiert, diese Bewegungen zu erlernen. Die direkte Übertragung der in der Simulation trainierten Strategien auf einen realen Roboter führt jedoch oft zu Leistungseinbußen, da zwischen simulierter und realer Welt dynamische Unterschiede bestehen. Um dieses Problem zu lösen, geht das ASAP-Framework in die zweite Phase – das Nachtraining – über. In dieser Phase wird der Roboter in der realen Welt die vortrainierten Bewegungen ausführen und seine tatsächlichen Bewegungstrajektorien werden aufgezeichnet.
Anschließend rekonstruiert das ASAP-Framework diese realen Bewegungsdaten im Simulator. Aufgrund der Unterschiede zwischen simulierter und realer Welt weichen die simulierten Bewegungstrajektorien oft von den realen ab. Diese Abweichung liefert den Forschern wertvolle Lernsignale. ASAP trainiert ein „Differenz-Bewegungsmodell“, das die dynamischen Unterschiede zwischen Simulation und Realität lernt und kompensiert. Dieses Modell fungiert wie ein „Korrekturmechanismus“, der die Schwächen des Simulators behebt und ihn den realen physikalischen Eigenschaften näher bringt. Schließlich wird dieses „Differenz-Bewegungsmodell“ in den Simulator integriert und zur Feinabstimmung der vortrainierten Bewegungssteuerungsstrategie verwendet, sodass die Bewegungen des Roboters besser an die realen physikalischen Eigenschaften angepasst sind. Die so feinabgestimmte Strategie kann dann direkt auf den realen Roboter angewendet werden, ohne das „Differenz-Bewegungsmodell“ weiter zu benötigen.
Um die Wirksamkeit des ASAP-Frameworks zu überprüfen, führten die Forscher mehrere Experimente durch, darunter die Übertragung zwischen verschiedenen Simulatoren und Tests an einem realen humanoiden Roboter Unitree G1. Die Ergebnisse zeigten, dass das ASAP-Framework die Agilität und die Ganzkörperkoordination des Roboters bei verschiedenen dynamischen Bewegungen deutlich verbessert. Im Vergleich zu traditionellen Methoden der Systemidentifikation, Domänenrandomisierung und dynamischen Differenzlernens konnte ASAP den Bewegungsspurenfehler deutlich reduzieren.
Der Erfolg des ASAP-Frameworks liegt in seiner Fähigkeit, die dynamischen Unterschiede zwischen simulierter und realer Welt effektiv zu überbrücken, sodass humanoide Roboter, die in einer simulierten Umgebung trainiert wurden, in der realen Welt tatsächlich hohe Agilität zeigen können. Dies eröffnet neue Wege für die Entwicklung flexiblerer und vielseitiger humanoiden Roboter.
Schlüsseltechnologien des ASAP-Frameworks:
Vortraining mit menschlichen Bewegungsdaten: Die agilen Bewegungen von Menschen werden in Lernziele für den Roboter umgewandelt und liefern ihm hochwertige Bewegungsdaten.
Training des Differenz-Bewegungsmodells: Durch das Erlernen der Unterschiede zwischen realer Welt und simulierter Umgebung werden die Schwächen des Simulators dynamisch kompensiert und die Genauigkeit der Simulation verbessert.
Feinabstimmung der Strategie basierend auf dem Differenz-Bewegungsmodell: Die Roboterstrategie wird an die physikalischen Eigenschaften der realen Welt angepasst, um letztendlich eine höhere Bewegungsleistung zu erzielen.
Experimentelle Validierung des ASAP-Frameworks:
Bei der Übertragung zwischen Simulatoren reduziert ASAP den Bewegungsspurenfehler deutlich und übertrifft andere Benchmark-Methoden.
Auch bei Tests an realen Robotern verbessert ASAP die Bewegungsleistung des Roboters deutlich und ermöglicht die Ausführung anspruchsvoller agiler Bewegungen.
Die Studie untersucht auch eingehend die Schlüsselfaktoren für das Training des Differenz-Bewegungsmodells, darunter die Größe des Datensatzes, die Trainingsdauer und die Gewichtung der Bewegungsnormen. Darüber hinaus verglichen die Forscher verschiedene Strategien zur Verwendung des Differenz-Bewegungsmodells und bestätigten schließlich, dass die Feinabstimmung durch Reinforcement Learning die beste Leistung erzielt.
Obwohl das ASAP-Framework bemerkenswerte Fortschritte erzielt hat, gibt es immer noch einige Einschränkungen, wie z. B. Hardwarebeschränkungen, die Abhängigkeit von Bewegungserfassungssystemen und den hohen Bedarf an Daten. Zukünftige Forschungsrichtungen könnten die Entwicklung von Strategien zur Erkennung von Hardwareschäden, die Nutzung von unmarkierter Pose-Schätzung oder die Fusion von Bord-Sensoren zur Reduzierung der Abhängigkeit von Bewegungserfassungssystemen sowie die Erforschung effizienterer adaptiver Technologien für Differenz-Bewegungsmodelle umfassen.
Das ASAP-Framework bietet neue Hoffnung für das Gebiet der humanoiden Robotik. Durch die geschickte Lösung der dynamischen Unterschiede zwischen Simulation und Realität ermöglicht ASAP humanoiden Robotern, agilere und koordiniertere Bewegungsfähigkeiten zu erlernen und legt damit den Grundstein für den zukünftigen breiten Einsatz humanoiden Roboters in der realen Welt.
Projekt-Adresse: https://agile.human2humanoid.com/
Paper-Adresse: https://arxiv.org/pdf/2502.01143