ControlMM：テキスト、音声、音楽のマルチモーダル入力を用いた全身動作生成

香港中文大学とテンセントが共同で開発した全く新しい技術フレームワークControlMMは、全身動作生成に新たなブレークスルーをもたらしました。テキスト、音声、音楽など、マルチモーダルな入力に対応し、内容に合わせた全身動作を生成します。

製品へのアクセス：https://top.aibase.com/tool/controlmm

ControlMMは、テキスト、音声、または音楽による制御下での全身マルチモーダルモーション生成における多くの課題を解決するために開発されました。例えば、様々な生成シーンにおけるモーション分布のずれ、混合条件における異なる粒度の複雑な最適化、既存データセットにおけるモーション形式の不一致などです。

これらの課題に対処するため、研究者たちは一連の革新的な手法を提案しました。まず、ControlMM-Attnを用いて静的および動的な人体トポロジーマップを並列にモデリングすることで、異なるモーション分布におけるモーション知識を効果的に学習および伝達します。

次に、ControlMMは、段階1のテキストからモーションへの事前学習（意味生成用）と、段階2のマルチモーダル制御による様々な低レベル粒度条件への適応を含む、粗い段階から細かい段階への学習戦略を採用しています。

さらに、既存ベンチマークにおけるモーション形式の不一致という制約に対処するため、ControlMM-Benchが開発されました。これは、統一された全身SMPL-Xフォーマットに基づく、公開可能な最初のマルチモーダル全身人体モーション生成ベンチマークです。

数多くの実験を通じて、ControlMMは様々な標準的なモーション生成タスクにおいて優れた性能を示しました。Text-to-Motion、Speech-to-Gesture、Music-to-Danceなど、あらゆる場面において、ControlMMはベースラインモデルと比較して、制御性、連続性、モーションの妥当性において顕著な優位性を示しています。

ControlMMの機能ハイライト:
1. ** マルチモーダル制御 **:ControlMMは、テキスト、音声、音楽など複数のモーダルによる全身モーション生成をサポートし、制御能力と適応性を向上させます。
2. ** 統一フレームワーク **:統一されたControlMMフレームワークを採用することで、様々なモーション生成タスクを統合し、生成効率を向上させます。
3. ** 段階的な学習戦略 **:粗い段階から細かい段階への学習戦略により、まずテキストからモーションへの事前学習を行い、その後低レベル制御信号への適応を行うことで、様々な粒度条件下でのモデルの有効性を確保します。
4. ** 高効率なモーション知識学習 **:ControlMM-Attnモジュールは、動的および静的な人体トポロジーマップを並列にモデリングし、モーションシーケンス表現を最適化することで、モーション生成の精度を向上させます。
5. ** 新規ベンチマークの導入 **:ControlMM-Benchを開発し、統一されたSMPL-Xフォーマットに基づく、公開可能な最初のマルチモーダル全身モーション生成ベンチマークを提供することで、この分野の研究と応用を促進します。
6. ** 優れた生成効果 **:ControlMMは、様々な標準的なモーション生成タスクにおいて、制御性、連続性、モーションの妥当性など、優れた性能を示しています。

AIニュース

ControlMM：テキスト、音声、音楽のマルチモーダル入力を用いた全身動作生成

AIbase基地

関連AIニュースの推奨

テンセント、Hunyuan-TurboSを発表：初の超大型混合Transformer-Mamba MoEモデルが登場

テンセント元宝機能更新：長画像共有時のAI思考過程の表示設定

テンセントクラウドインテリジェントデジタルヒューマン、DeepSeek大規模言語モデルを全面的に導入し、ユーザーエクスペリエンスを向上

テンセント元宝、DeepSeekを抜きApple無料アプリダウンロードランキング1位に