In den letzten Jahren hat die embodied intelligence (verkörperte Intelligenz) einen enormen Aufschwung erlebt. Von beeindruckenden Roboterauftritten beim Frühlingsfest über die Erwähnung in Regierungsberichten bis hin zur wiederholten Befürwortung durch Jensen Huang von Nvidia – sie steht im Mittelpunkt des AI-Bereichs. Embodied intelligence zielt darauf ab, Robotern zu ermöglichen, wie Menschen in der realen Welt präzise wahrzunehmen und flexibel zu reagieren.

Ein Forschungsteam der Tsinghua-Universität und Ant Group hat einen bedeutenden Durchbruch erzielt. In ihrer auf der ICLR2025 veröffentlichten Arbeit stellen sie den BodyGen-Algorithmus-Framework vor. Dieser Framework kombiniert Reinforcement Learning und Deep Neural Networks, um Robotern zu ermöglichen, in kurzer Zeit automatisch optimale Formen und Steuerungsstrategien zu entwickeln, die an die Umgebung angepasst sind. Die Leistungssteigerung beträgt nachweislich 60%, und der Code wurde auf GitHub open-source veröffentlicht.

QQ20250325-144947.png

Das traditionelle Roboterdesign steht vor vielen Herausforderungen, wie der Abhängigkeit von umfangreichem Expertenwissen und der Notwendigkeit wiederholter Tests und Iterationen für spezifische Umgebungen. Die Technologie der koordinierten Gestaltung von Form und Steuerung weist zudem Probleme auf, wie den riesigen Suchraum für Formen und die starke Kopplung zwischen Form und Steuerungsstrategie. Der BodyGen-Framework löst diese Probleme durch zwei Phasen: Formgestaltung und Umweltinteraktion. In der Formgestaltungsphase wird ein Transformer (GPT-Style) zur autoregressiven Konstruktion und Optimierung der Strukturparameter des Roboters verwendet; in der Phase der Umweltinteraktion wird ein Transformer (Bert-Style) zur Verarbeitung von Gelenkinformationen eingesetzt, um ein interaktives Feedback mit der Umgebung zu ermöglichen.

QQ20250325-144954.png

BodyGen basiert auf drei Kerntechnologien. Der TopoPE-Positionierungskodierer für die Körperstruktur fungiert als „körperliches Wahrnehmungssystem“ des Roboters und hilft der KI, sich schnell an Formänderungen anzupassen; der auf Transformer basierende MoSAT agiert als „zentrales Gehirn“, das für die Informationsverarbeitung und die Befehlsausgabe zuständig ist; ein spezieller Belohnungsmechanismus ermöglicht der KI eine rationale Bewertung von Designentscheidungen.

QQ20250325-145003.png

In Tests mit 10 verschiedenen Aufgabenumgebungen (z. B. Krabbeln, Schwimmen) erzielte BodyGen eine um 60,03 % höhere Anpassungsfähigkeit der Roboterform im Vergleich zu den besten bestehenden Methoden. Darüber hinaus ist es mit nur 1,43 M Parametern sehr leichtgewichtig und bietet in ressourcenbeschränkten Umgebungen deutliche Vorteile. Das Forschungsteam wird die Anwendung in realen Szenarien vorantreiben. BodyGen könnte ein wichtiger Schritt zur Entwicklung einer universellen embodied intelligence sein.

Adresse: https://github.com/GenesisOrigin/BodyGen