最近,中国科学技术大学的研究团队推出了一款名为 PortraitGen 的创新视频编辑工具,只要输入视频,就可以实现文字修改人物效果、参考图片修改人物效果,换衣,修改光照效果等多模态的人像编辑。
更令人兴奋的是,这一切只需短短30分钟,编辑后的人像视频能够以每秒100帧的速度流畅播放!
这项技术的核心在于追踪 SMPL-X 系数,研究团队首先对单目视频进行追踪,然后通过一种被称为神经高斯纹理的机制,构建出一个3D 高斯特征场。
通过迭代更新数据集,用户可以实现多样化的人像编辑。特别值得一提的是,团队还提出了一个 “面部意识编辑” 模块,旨在提高表情质量并保留个性化的面部结构,编辑效果自然且细腻。
文本修改人物效果
PortraitGen 的编辑功能非常强大,用户可以进行文本驱动和图像驱动的编辑。
比如,文本驱动编辑使用了一种叫做 InstructPix2Pix 的2D 编辑模型,用户只需输入 RGB 图像、文本指令和带有噪声的潜在图像,系统便能根据这些信息进行精细的调整。
风格化编辑
而在图像驱动编辑方面,团队针对不同需求,采用了风格迁移和虚拟试穿等技术,让用户可以轻松地将风格转移到视频帧中,甚至实现换衣效果。
修改光照
更有趣的是,PortraitGen 还能够根据用户提供的光照描述来调节视频帧的光照,使得整个视频更加和谐美观。
在与其他顶尖视频编辑工具的对比中,PortraitGen 在提示保留、身份保留和时间一致性方面都表现得相当优越。
在技术细节上,PortraitGen 引入的神经高斯纹理技术,不同于以往的球谐系数方法,为每个高斯点存储可学习的特征,使得编辑效果更为丰富,能够支持更复杂的样式。
此外,通过人脸识别增强的编辑功能,以及优化表情一致性的表达,PortraitGen 展现了其在细致人像编辑领域的强大潜力。
项目入口:https://top.aibase.com/tool/portraitgen
划重点:
✨ PortraitGen 仅需30分钟即可将2D 人像视频编辑为4D 高斯场,支持每秒100帧的流畅播放。
🎨 提供多种编辑方式,包括文本驱动和图像驱动,让视频风格变换更加灵活多样。
💡 通过面部意识编辑模块,提升表情质量,并保留用户个性化的面部特征。