製品へのアクセス:https://top.aibase.com/tool/controlmm
ControlMMは、テキスト、音声、または音楽による制御下での全身マルチモーダルモーション生成における多くの課題を解決するために開発されました。例えば、様々な生成シーンにおけるモーション分布のずれ、混合条件における異なる粒度の複雑な最適化、既存データセットにおけるモーション形式の不一致などです。
これらの課題に対処するため、研究者たちは一連の革新的な手法を提案しました。まず、ControlMM-Attnを用いて静的および動的な人体トポロジーマップを並列にモデリングすることで、異なるモーション分布におけるモーション知識を効果的に学習および伝達します。
次に、ControlMMは、段階1のテキストからモーションへの事前学習(意味生成用)と、段階2のマルチモーダル制御による様々な低レベル粒度条件への適応を含む、粗い段階から細かい段階への学習戦略を採用しています。
さらに、既存ベンチマークにおけるモーション形式の不一致という制約に対処するため、ControlMM-Benchが開発されました。これは、統一された全身SMPL-Xフォーマットに基づく、公開可能な最初のマルチモーダル全身人体モーション生成ベンチマークです。
数多くの実験を通じて、ControlMMは様々な標準的なモーション生成タスクにおいて優れた性能を示しました。Text-to-Motion、Speech-to-Gesture、Music-to-Danceなど、あらゆる場面において、ControlMMはベースラインモデルと比較して、制御性、連続性、モーションの妥当性において顕著な優位性を示しています。
ControlMMの機能ハイライト:
1. ** マルチモーダル制御 **:ControlMMは、テキスト、音声、音楽など複数のモーダルによる全身モーション生成をサポートし、制御能力と適応性を向上させます。
2. ** 統一フレームワーク **:統一されたControlMMフレームワークを採用することで、様々なモーション生成タスクを統合し、生成効率を向上させます。
3. ** 段階的な学習戦略 **:粗い段階から細かい段階への学習戦略により、まずテキストからモーションへの事前学習を行い、その後低レベル制御信号への適応を行うことで、様々な粒度条件下でのモデルの有効性を確保します。
4. ** 高効率なモーション知識学習 **:ControlMM-Attnモジュールは、動的および静的な人体トポロジーマップを並列にモデリングし、モーションシーケンス表現を最適化することで、モーション生成の精度を向上させます。
5. ** 新規ベンチマークの導入 **:ControlMM-Benchを開発し、統一されたSMPL-Xフォーマットに基づく、公開可能な最初のマルチモーダル全身モーション生成ベンチマークを提供することで、この分野の研究と応用を促進します。
6. ** 優れた生成効果 **:ControlMMは、様々な標準的なモーション生成タスクにおいて、制御性、連続性、モーションの妥当性など、優れた性能を示しています。