香港中文大学和腾讯联合推出了一个全新的技术框架ControlMM,为全身动作生成带来了新的突破,该技术支持输入文字、语音、音乐等多模态模式,进而生成与内容相匹配的全身动作。

image.png

产品入口:https://top.aibase.com/tool/controlmm

ControlMM 的出现是为了解决当前在文本、语音或音乐控制的全身多模态运动生成中存在的诸多难题。比如,不同生成场景下的运动分布漂移,混合条件不同粒度的复杂优化,以及现有数据集中不一致的运动格式等。

为了有效应对这些挑战,研究人员提出了一系列创新的方法。首先,ControlMM-Attn 被用于并行建模静态和动态的人体拓扑图,以有效地学习和传递不同运动分布中的运动知识。

其次,ControlMM 采用了由粗到细的训练策略,包括阶段1的文本到运动预训练用于语义生成,以及阶段2的多模态控制适应不同低级粒度的条件。

此外,为了解决现有基准中运动格式不一致的限制,还推出了 ControlMM-Bench,这是首个基于统一全身 SMPL-X 格式的公开可用多模态全身人体运动生成基准。

通过大量实验,ControlMM 在各种标准运动生成任务中表现出色。无论是在 Text-to-Motion、Speech-to-Gesture 还是 Music-to-Dance 等方面。与基线模型相比,ControlMM 在可控性、顺序性和运动合理性上都具有显著的优势。

ControlMM的功能亮点:

1. ** 多模态控制 **:ControlMM 支持通过文本、语音和音乐等多种模态进行全身运动生成,增强了控制能力和适应性。

2. ** 统一框架 **:采用统一的 ControlMM 框架,实现了多种运动生成任务的整合,提高了生成效率。

3. ** 分阶段训练策略 **:通过粗到细的训练策略,首先进行文本到运动的预训练,然后进行低级控制信号的适配,确保模型在不同粒度条件下的有效性。

4. ** 高效的运动知识学习 **:ControlMM-Attn 模块并行建模动态和静态的人体拓扑图,优化运动序列的表示,提升了运动生成的准确性。

5. ** 新基准引入 **:推出 ControlMM-Bench,提供了首个基于统一 SMPL-X 格式的公开多模态全身运动生成基准,有助于推动该领域的研究和应用。

6. ** 优越的生成效果 **:在各项标准运动生成任务中,ControlMM 展现了领先的性能,包括控制性、连续性和运动合理性。