近日,研究人员提出了一种名为 JoyVASA 的新技术,旨在提升音频驱动的图像动画效果。随着深度学习和扩散模型的不断发展,音频驱动的人像动画在视频质量和嘴形同步精度方面取得了显著进展。然而,现有模型的复杂性增加了训练和推理的效率问题,同时也限制了视频的时长和帧间连续性。

JoyVASA 采用了两阶段的设计,第一阶段引入了一种解耦的面部表征框架,将动态面部表情与静态的三维面部表征分开。

这种分离使得系统能够将任何静态的三维面部模型与动态动作序列相结合,从而生成更长的动画视频。在第二阶段,研究团队训练了一种扩散变换器,能够直接从音频线索中生成动作序列,这一过程与角色身份无关。最后,基于第一阶段训练的生成器将三维面部表征和生成的动作序列作为输入,渲染出高质量的动画效果。

image.png

值得注意的是,JoyVASA 不仅限于人像动画,还能够无缝地动画化动物面部。这一模型在一个混合数据集上进行训练,结合了私有的中文数据和公共的英文数据,展现出良好的多语言支持能力。实验结果证明了这一方法的有效性,未来的研究将重点提升实时性能和细化表情控制,进一步扩展这一框架在图像动画中的应用。

JoyVASA 的出现标志着音频驱动动画技术的一次重要突破,推动了在动画领域的新可能性。

项目入口:https://jdh-algo.github.io/JoyVASA/

划重点:

🎨 JoyVASA 技术通过解耦面部表情与三维模型,实现更长的动画视频生成。  

🔊 该技术能够根据音频线索生成动作序列,具有人物与动物动画的双重能力。  

🌐 JoyVASA 在中英文数据集上训练,具备多语言支持,为全球用户提供服务。