音频驱动生成面部视频技术JoyVASA 支持小动物角色

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Nov 25, 2024

418

近日，研究人员提出了一种名为 JoyVASA 的新技术，旨在提升音频驱动的图像动画效果。随着深度学习和扩散模型的不断发展，音频驱动的人像动画在视频质量和嘴形同步精度方面取得了显著进展。然而，现有模型的复杂性增加了训练和推理的效率问题，同时也限制了视频的时长和帧间连续性。

JoyVASA 采用了两阶段的设计，第一阶段引入了一种解耦的面部表征框架，将动态面部表情与静态的三维面部表征分开。

这种分离使得系统能够将任何静态的三维面部模型与动态动作序列相结合，从而生成更长的动画视频。在第二阶段，研究团队训练了一种扩散变换器，能够直接从音频线索中生成动作序列，这一过程与角色身份无关。最后，基于第一阶段训练的生成器将三维面部表征和生成的动作序列作为输入，渲染出高质量的动画效果。

值得注意的是，JoyVASA 不仅限于人像动画，还能够无缝地动画化动物面部。这一模型在一个混合数据集上进行训练，结合了私有的中文数据和公共的英文数据，展现出良好的多语言支持能力。实验结果证明了这一方法的有效性，未来的研究将重点提升实时性能和细化表情控制，进一步扩展这一框架在图像动画中的应用。

JoyVASA 的出现标志着音频驱动动画技术的一次重要突破，推动了在动画领域的新可能性。

项目入口：https://jdh-algo.github.io/JoyVASA/

划重点:
🎨 JoyVASA 技术通过解耦面部表情与三维模型，实现更长的动画视频生成。
🔊 该技术能够根据音频线索生成动作序列，具有人物与动物动画的双重能力。
🌐 JoyVASA 在中英文数据集上训练，具备多语言支持，为全球用户提供服务。

JoyVASA 深度学习音频驱动图像动画

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现

近日，字节跳动Seed团队携手香港大学与复旦大学，共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略，成功将小模型的数学推理能力提升至与超大模型相媲美的水平，为人工智能领域的小模型优化提供了新路径。实验结果显示，采用POLARIS训练的40亿参数开源模型Qwen3-4B，在AIME25和AIME24数学测试中分别取得了79.4%和81.2%的高准确率，性能超越部分更大规模的闭源模型。尤为突出的是，POLARIS-4B模型的轻量化设计，使其能够在消费级显卡上轻松部署，大大降低了应用门槛。

2025年7月16号 10:56

900

Mistral重磅推出Voxtral：开源AI音频模型的新时代来临！

法国Mistral公司发布开源音频模型Voxtral，提供经济高效的语音AI解决方案。该模型基于Mistral Small3.1开发，支持30分钟音频转录和40分钟内容理解，具备多语言处理能力。提供三种版本：240亿参数的Voxtral Small适用于生产环境；30亿参数的Voxtral Mini适合本地部署；3亿参数的Voxtral Mini Transcribe专注转录场景。API起价0.001美元/分钟，性能超越Whisper但价格更低。此次发布延续了Mistral推动开源AI的战略，公司近期正寻求10亿美元融资。

2025年7月16号 8:56

1.2k

秘塔AI搜索上线秘塔版“深度研究” 可免费公开访问

7月15日，秘塔AI搜索宣布其“深度研究”模块完成新一轮迭代并正式上线公测，成为国内首个面向公众免费开放、具备多轮推理链可视化的深度研究级搜索服务。升级后的系统采用分段强化学习策略，将原本算力消耗巨大的“深度研究”任务拆解为多个子任务，在保持结果准确性的同时把运行成本压至可公开免费提供的水平，对中文语料的检索与推理表现尤为突出。

2025年7月15号 9:25

2.5k

中国AI治理方案亮相联合国峰会深度伪造攻击率击退超六成

联合国AI for Good峰会在日内瓦召开，蚂蚁集团彭晋分享中国AI安全技术成果。数据显示，蚂蚁数科帮助东南亚银行将伪造人脸攻击率从10%降至4%，识别准确率达99.9%。蚂蚁通过ZOLOZ平台提供金融级身份认证，已服务25国，并开放180万伪造数据集推动行业研究。中国技术方案正为全球AI安全治理提供重要参考。

2025年7月14号 13:53

1.5k

谷歌Veo3新增图像转视频功能，七周内用户创作超4000万个视频

谷歌为Veo3AI视频生成器新增图像转视频功能，该功能已整合进Gemini应用和Flow工具，覆盖150多国。目前仅限AI Ultra/Pro用户使用，每日限3次创作。用户可上传图片并添加音频描述生成视频，支持下载分享。数据显示7周内用户已创建超4000万视频。所有生成视频均带有可见"Veo"水印和不可见SynthID数字水印，谷歌还提供专用检测工具识别AI内容。

2025年7月11号 9:17

1.8k

可灵 AI 发布可图2.1模型:图像生成能力大幅提升，支持180种风格

可灵AI推出新一代图像生成模型"可图2.1"，在指令理解、人像美感和电影质感等方面全面提升。新模型具备强大文字生成能力，支持180多种风格，7月17日前会员可免费体验。该模型能精准呈现复杂场景，如3D沙盘、海底火山爆发等宏大场面，在人像光影处理上尤为出色。可灵AI已发展为多模态创意平台，用户累计生成3.44亿张图片和1.68亿个视频，展现强大技术实力和市场影响力。

2025年7月11号 8:58

2.5k

谷歌在 Wear OS 智能手表上推出 AI 驱动的 Gemini 功能

谷歌正式推出Wear OS智能手表AI功能Gemini，支持语音交互和跨应用操作，可处理日常查询、邮件总结等任务。同时升级"圈选搜索"功能，新增AI模式实现深度信息探索，支持游戏场景应用。Pixel9Pro用户将获赠一年AI Pro订阅服务，可生成带自然音频的短视频。该功能将陆续适配主流品牌搭载Wear OS4+系统的智能手表。

2025年7月10号 10:35

920

AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

【AI日报速览】阿里开源ThinkSound音频生成模型，支持链式推理实现高保真空间音频；谷歌Veo3升级，单图即可生成专业运镜视频；Hugging Face发布30亿参数SmolLM3模型，支持双模式推理；阿里WebSailor智能体展现强大检索能力；Moonvalley推出1080P无版权风险视频模型；Vidu Q1支持7图融合生成一致性视频；苹果研发AI客服助手优化用户体验；飞书发布多款企业AI产品及成熟度模型；微软等科技巨头联合成立AI教育学院，投入2300万美元培训教师。

2025年7月9号 16:24

3.7k

Vidu Q1震撼升级:参考转视频支持最多七张图像，AI视频生成再创新高

Vidu Q1模型推出"参考转视频"新功能，支持上传7张参考图像生成1080p高质量视频。该功能通过语义融合技术实现多元素视觉一致性，解决传统AI视频生成中的场景断裂问题。用户可组合人物、场景等图像，配合文本提示生成复杂叙事视频。模型还具备多主体一致性技术，确保角色、物体等元素在视频中保持特征稳定，支持多角度镜头切换和动态过渡，显著降低复杂场景制作门槛，为动画、广告等专业创作提供影视级体验。

2025年7月9号 14:12

2.5k

阿里通义开源支持链式推理的音频生成模型ThinkSound

近日，阿里语音AI团队宣布开源全球首个支持链式推理的音频生成模型ThinkSound，该模型通过引入思维链（Chain-of-Thought）技术，突破传统视频转音频技术对画面动态捕捉的局限，实现高保真、强同步的空间音频生成。这一突破标志着AI音频技术从“看图配音”向“结构化理解画面”的跨越式发展。

2025年7月9号 9:28

2.1k

AI开源&商用产品

AI产品提交

模型库

MCP服务端

MCP客户端

MCP服务调试

案例教程

AI热门资讯

今日AI热点

音频驱动生成面部视频技术JoyVASA 支持小动物角色

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现

Mistral重磅推出Voxtral：开源AI音频模型的新时代来临！

秘塔AI搜索上线秘塔版“深度研究” 可免费公开访问

中国AI治理方案亮相联合国峰会深度伪造攻击率击退超六成

谷歌Veo3新增图像转视频功能，七周内用户创作超4000万个视频

可灵 AI 发布可图2.1模型:图像生成能力大幅提升，支持180种风格

谷歌在 Wear OS 智能手表上推出 AI 驱动的 Gemini 功能

AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

Vidu Q1震撼升级:参考转视频支持最多七张图像，AI视频生成再创新高

阿里通义开源支持链式推理的音频生成模型ThinkSound

AI开源&商用产品

AI产品提交

模型库

MCP服务端

MCP客户端

MCP服务调试

案例教程

AI热门资讯

今日AI热点

音频驱动生成面部视频技术JoyVASA 支持小动物角色

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现

Mistral重磅推出Voxtral：开源AI音频模型的新时代来临！

秘塔AI搜索上线秘塔版“深度研究” 可免费公开访问

中国AI治理方案亮相联合国峰会 深度伪造攻击率击退超六成

谷歌Veo3新增图像转视频功能，七周内用户创作超4000万个视频

可灵 AI 发布可图2.1模型:图像生成能力大幅提升，支持180种风格

谷歌在 Wear OS 智能手表上推出 AI 驱动的 Gemini 功能

AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

Vidu Q1震撼升级:参考转视频支持最多七张图像，AI视频生成再创新高

阿里通义开源支持链式推理的音频生成模型ThinkSound

中国AI治理方案亮相联合国峰会深度伪造攻击率击退超六成