Produktzugang: https://top.aibase.com/tool/controlmm
ControlMM wurde entwickelt, um die zahlreichen Herausforderungen bei der multimodalen Ganzkörperbewegungsgenerierung mit Text-, Sprach- oder Musik-Steuerung zu bewältigen. Dazu gehören beispielsweise die Drift der Bewegungsdatenverteilung in verschiedenen Szenarien, die komplexe Optimierung unterschiedlicher Granularität bei gemischten Bedingungen und inkonsistente Bewegungsformate in bestehenden Datensätzen.
Um diesen Herausforderungen effektiv zu begegnen, haben die Forscher eine Reihe innovativer Methoden entwickelt. Zunächst wird ControlMM-Attn verwendet, um statische und dynamische menschliche Topologiegraphen parallel zu modellieren, um Bewegungswissen aus verschiedenen Bewegungsverteilungen effektiv zu lernen und zu übertragen.
Zweitens verwendet ControlMM eine von grob zu fein verlaufende Trainingsstrategie, einschließlich einer Text-zu-Bewegung-Vorabtrainierung in Phase 1 für die semantische Generierung und einer Anpassung an multimodale Steuerungen mit unterschiedlicher niedriger Granularität in Phase 2.
Um die Einschränkungen inkonsistenter Bewegungsformate in bestehenden Benchmarks zu lösen, wurde außerdem ControlMM-Bench eingeführt, der erste öffentlich verfügbare multimodale Ganzkörper-Bewegungsgenerierungs-Benchmark, der auf dem einheitlichen Ganzkörper-SMPL-X-Format basiert.
In zahlreichen Experimenten hat ControlMM in verschiedenen Standard-Bewegungsgenerierungsaufgaben hervorragende Leistungen gezeigt, sowohl bei Text-to-Motion, Speech-to-Gesture als auch Music-to-Dance. Im Vergleich zu Baseline-Modellen weist ControlMM signifikante Vorteile in Bezug auf Steuerbarkeit, Konsistenz und Bewegungsnatürlichkeit auf.
Highlights der ControlMM-Funktionen:
1. ** Multimodale Steuerung **: ControlMM unterstützt die Ganzkörperbewegungsgenerierung über verschiedene Modalitäten wie Text, Sprache und Musik, wodurch die Steuerbarkeit und Anpassungsfähigkeit verbessert werden.
2. ** Einheitliches Framework **: Durch ein einheitliches ControlMM-Framework werden verschiedene Bewegungsgenerierungsaufgaben integriert, was die Generierungseffizienz steigert.
3. ** Phasenweise Trainingsstrategie **: Durch eine von grob zu fein verlaufende Trainingsstrategie wird zunächst ein Text-zu-Bewegung-Pretraining durchgeführt, gefolgt von der Anpassung an Steuersignale niedriger Ordnung, um die Effektivität des Modells unter Bedingungen unterschiedlicher Granularität zu gewährleisten.
4. ** Effizientes Lernen von Bewegungswissen **: Das ControlMM-Attn-Modul modelliert dynamische und statische menschliche Topologiegraphen parallel, optimiert die Darstellung von Bewegungssequenzen und verbessert die Genauigkeit der Bewegungsgenerierung.
5. ** Einführung eines neuen Benchmarks **: ControlMM-Bench stellt den ersten öffentlich verfügbaren multimodalen Ganzkörper-Bewegungsgenerierungs-Benchmark auf Basis des einheitlichen SMPL-X-Formats bereit und fördert so Forschung und Anwendung in diesem Bereich.
6. ** Überragende Generierungsergebnisse **: ControlMM zeigt in verschiedenen Standard-Bewegungsgenerierungsaufgaben führende Leistungen, einschließlich Steuerbarkeit, Konsistenz und Bewegungsnatürlichkeit.