近日,来自多伦多大学及向量研究所的研究团队发布了 CAP4D 模型,这是一种基于形变多视角扩散模型(MMDM)的新技术,能够通过任意数量的参考图像生成逼真的4D 头像。
该模型采用双阶段方法,首先利用 MMDM 生成不同视角和表情的图像,然后将这些生成的图像与参考图像结合,重建出一个可实时控制的4D 头像。
在 CAP4D 的工作流程中,用户可以输入任意数量的参考图像,这些图像将被编码到变分自编码器的潜在空间中。接着,使用现成的面部追踪技术 FlowFace 估计每张参考图像的3D 形变模型(FLAME),从中提取出头部姿态、表情及摄像机视角等信息。MMDM 则通过随机采样的方式,在每一步迭代生成过程中,结合输入的参考图像生成多个不同的图像。
该研究团队展示了 CAP4D 生成的各种头像,涵盖了单张参考图像、少量参考图像和挑战性更大的从文本提示或艺术作品生成头像的场景。通过使用多张参考图像,模型能够恢复出单张图像中无法看到的细节与几何形状,从而提升了重建效果。此外,CAP4D 还具备与现有图像编辑模型相结合的能力,使得用户可以对生成的头像进行外观和光照的编辑。
为了进一步提升头像的表现力,CAP4D 能够将生成的4D 头像与语音驱动动画模型结合,实现音频驱动的动画效果。这使得头像不仅能够展现静态的视觉效果,还能通过声音与用户进行动态互动,开创了虚拟头像应用的新领域。
划重点:
🌟 CAP4D 模型能够通过任意数量的参考图像生成高质量的4D 头像,采用双阶段工作流程。
🖼️ 该技术可以生成多种不同视角的头像,显著提高了图像重建效果和细节呈现。
🎤 CAP4D 与语音驱动动画模型相结合,实现音频驱动的动态头像,拓展了虚拟头像的应用场景。