ControlMM：文字、语音、音乐多模态输入生成全身动作

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Aug 6, 2024

296

香港中文大学和腾讯联合推出了一个全新的技术框架ControlMM，为全身动作生成带来了新的突破，该技术支持输入文字、语音、音乐等多模态模式，进而生成与内容相匹配的全身动作。

产品入口：https://top.aibase.com/tool/controlmm

ControlMM 的出现是为了解决当前在文本、语音或音乐控制的全身多模态运动生成中存在的诸多难题。比如，不同生成场景下的运动分布漂移，混合条件不同粒度的复杂优化，以及现有数据集中不一致的运动格式等。

为了有效应对这些挑战，研究人员提出了一系列创新的方法。首先，ControlMM-Attn 被用于并行建模静态和动态的人体拓扑图，以有效地学习和传递不同运动分布中的运动知识。

其次，ControlMM 采用了由粗到细的训练策略，包括阶段1的文本到运动预训练用于语义生成，以及阶段2的多模态控制适应不同低级粒度的条件。

此外，为了解决现有基准中运动格式不一致的限制，还推出了 ControlMM-Bench，这是首个基于统一全身 SMPL-X 格式的公开可用多模态全身人体运动生成基准。

通过大量实验，ControlMM 在各种标准运动生成任务中表现出色。无论是在 Text-to-Motion、Speech-to-Gesture 还是 Music-to-Dance 等方面。与基线模型相比，ControlMM 在可控性、顺序性和运动合理性上都具有显著的优势。

ControlMM的功能亮点:
1. ** 多模态控制 **:ControlMM 支持通过文本、语音和音乐等多种模态进行全身运动生成，增强了控制能力和适应性。
2. ** 统一框架 **:采用统一的 ControlMM 框架，实现了多种运动生成任务的整合，提高了生成效率。
3. ** 分阶段训练策略 **:通过粗到细的训练策略，首先进行文本到运动的预训练，然后进行低级控制信号的适配，确保模型在不同粒度条件下的有效性。
4. ** 高效的运动知识学习 **:ControlMM-Attn 模块并行建模动态和静态的人体拓扑图，优化运动序列的表示，提升了运动生成的准确性。
5. ** 新基准引入 **:推出 ControlMM-Bench，提供了首个基于统一 SMPL-X 格式的公开多模态全身运动生成基准，有助于推动该领域的研究和应用。
6. ** 优越的生成效果 **:在各项标准运动生成任务中，ControlMM 展现了领先的性能，包括控制性、连续性和运动合理性。

ControlMM 香港中文大学腾讯全身动作生成

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

AI日报：腾讯元宝升级一句话搜索图片视频；微信支付MCP上线；谷歌在全球推出 Veo 3

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、腾讯元宝再升级:一句话搜索，图片视频即刻呈现，信息获取更直观!腾讯元宝的升级功能让信息获取更加直观和高效，用户只需一句话提问即可获得图文并茂的回答，无论是学习新技能还是解决生活难题都变得更加简单。【AiBase提要:】🧠 一句话搜索，智能匹配图片和视频号内容💡 学习新技

2025年7月4号 16:39

1.8k

谷歌在全球推行全新 Veo 3 视频生成模型

谷歌宣布正式在全球范围内推出其最新的视频生成模型 Veo3。此次发布的消息令广大用户期待已久，Veo3现已向超过159个国家的 Gemini 用户开放，提供全新的视频创作体验。Veo3视频生成模型的特点在于其能够让用户通过简单的文本提示生成最多八秒钟的视频。根据谷歌的介绍，这项技术专为追求创意的用户设计，尤其是对短视频内容需求日益增加的社交媒体用户来说，Veo3将大大简化视频创作过程。不过，值得注意的是，Veo3目前仅对谷歌的 AI Pro 计划付费用户开放，且每日生成视频的数量限制

2025年7月4号 14:41

2.3k

腾讯元宝再升级:一句话搜索，图片视频即刻呈现，信息获取更直观!

智能助手元宝今日宣布重磅升级其核心搜索功能，推出“一句话能搜的更多了”全新特性。现在，用户只需简单一句提问，元宝便能智能匹配并呈现图片和视频号内容，让信息获取变得前所未有的丰富与直观。过去，元宝已能轻松应对天气查询、股价查询、地点查找等日常需求。而此次升级，则将元宝的智能搜索能力推向新高度。无论是想要学习一项新技能，还是解决生活中的小难题，元宝都能通过整合文字、图片和视频号，为用户提供“手把手”的教学体验。一句话搜索出视频号:学新技

2025年7月4号 14:11

3.1k

谷歌Veo 3视频生成模型向 Pro / Ultra 会员开放，将新增“照片生成视频”功能

谷歌在全球范围内宣布其最新一代AI文生视频模型 Veo3 正式向 Google AI Pro 和 Ultra 会员开放。这款由 Google DeepMind 研发的视频生成模型，以其卓越的高清画质、音画同步能力以及多模态创作功能，迅速成为AI视频生成领域的焦点。Veo3:重新定义AI视频生成在2025年 Google I/O 开发者大会上首次亮相的 Veo3，被誉为谷歌在AI视频生成领域的里程碑式产品。相比前代模型，Veo3在以下方面实现了显著突破:高清画质与物理真实感:Veo3支持生成 1080p 高清视频，内部测试甚至可达 4K 分辨率。其视频画面不仅细节

2025年7月4号 9:53

3.0k

芯片设计公司Ambiq Micro申请美国 IPO，受益于生成式AI推动的市场需求

芯片设计公司 Ambiq Micro 于周四在其美国首次公开募股（IPO）申请中披露，2024年的净销售额增长了16.1%，这一增长得益于生成 AI 对半导体技术需求的不断提升。随着投资者重新关注高增长科技初创企业，AI 相关技术股票的强劲需求正在推动 IPO 市场的复苏。位于德克萨斯州奥斯汀的 Ambiq Micro 报告称，尽管2024年净亏损为3970万美元，但较2023年同期的5030万美元有所缩窄。该公司的净销售额在2024年达到了7610万美元，同比增长16.1%。虽然 Ambiq 在过去几年与谷歌和华为等大客户的合作带来了强劲的

2025年7月4号 9:26

790

Meta 测试 AI 聊天机器人主动功能，旨在提升用户参与度

据 AIbase 报道，科技巨头 Meta 正在对其 AI 聊天机器人进行一项新功能测试，允许它们在未经用户提示的情况下主动发送消息。这项内部代号为“Omni”的项目旨在显著提升用户参与度，并有望为 Meta 的生成式人工智能产品带来可观的收入。该主动功能基于 Meta 与数据提供商 Alignerr 合作的培训材料。这些聊天机器人由 Meta AI Studio 创建，该平台自2024年起允许用户设计具有记忆和特定行为的自定义数字角色。通过这项新功能，机器人能够回顾过去的对话或提出与主题相关的问题，从而持续保持用

2025年7月4号 8:51

970

Lovart国内版星流Agent上线批量海报+中文字体完美适配

近日，Lovart AI的官方中文版——星流Agent正式上线，引发了设计圈和科技社区的广泛关注。作为全球首个人工智能设计代理（Design Agent）的国内适配版本，星流Agent不仅继承了Lovart AI的强大功能，还针对中文用户进行了深度优化，特别是在中文字体支持和批量海报生成方面表现尤为出色。AIbase编辑团队整理了社交媒体上的最新信息，为您详细解析星流Agent的亮点及其对设计行业的潜在影响。星流Agent:Lovart AI的中文升级版星流Agent是Lovart AI为中国市场量身打造的版本，由中国科技公司Liblib开发

2025年7月3号 16:31

3.6k

A日报：B站升级动漫视频生成模型AniSora V3；字节开源4D视频生成框架EX-4D；DeepSWE开源AI Agent系统强势登顶

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、字节跳动EX-4D震撼开源:单目视频秒变自由视角4D大片EX-4D是字节跳动PICO-MR团队推出的4D视频生成框架，能够从单目视频生成高质量、多视角的4D视频序列。该技术通过深度密闭网格（DW-Mesh）和轻量级适配架构，解决了传统视频生成技术在多视角生成中的挑战，并在性能指标上全面领先。【AiBase

2025年7月3号 16:27

4.7k

Bilibili开源动漫视频生成模型AniSora V3版，一键生成多种风格动漫视频镜头

Bilibili（B站）宣布其开源动漫视频生成模型AniSora迎来重大更新，正式发布AniSora V3。作为Index-AniSora项目的一部分，V3版本在原有基础上进一步优化了生成质量、动作流畅度和风格多样性，为动漫、漫画及VTuber内容创作者提供了更强大的工具。AIbase深入解读AniSora V3的技术突破、应用场景及行业影响。技术升级:更高质量与精准控制AniSora V3基于Bilibili此前开源的CogVideoX-5B和Wan2.1-14B模型，结合强化学习与人类反馈（RLHF）框架，显著提升了生成视频的视觉质量和动作一致性。其支持一键

2025年7月3号 11:59

6.7k

字节EX-4D 技术实现单目视频4D化，解锁极端视角下高质量内容生成

由研究团队 tau-yihouxiang 开发的 EX-4D（Extreme Viewpoint4D Video Generation）技术，一项颠覆传统的视频生成创新，正在全球范围内引发广泛关注。这项技术旨在将单目视频转化为可控的4D 体验，尤其在极端摄像机角度下展现出卓越的性能。EX-4D 技术的核心在于其独特的“深度水密网格”构建方法。这种新颖的几何表示方式，能够有效建模可见和被遮挡区域，并在 -90° 至90° 的广泛角度范围内生成高质量视频。这一突破为游戏、电影制作、虚拟现实（VR）和增强现实(AR)等多个领域的应用奠定了基础。

2025年7月3号 10:05

290

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图