复旦开源的项目Hallo,一个根据音频和图片生成说话视频的项目,已经适配了ComfyUI插件。虽然安装过程中需要的依赖较多,门槛相对较高,但这一开源生态的出现,为后续的转绘和其他流程提供了更多的可能性和乐趣。
Hallo项目通过输入音频,可以让面部照片开始说话,并且伴随着相应的表情,效果看起来非常自然。这个项目采用了端到端的扩散范式,引入了分层的音频驱动视觉合成模块,以提高音频输入与视觉输出之间的对齐精度,包括唇部、表情和姿势的运动。
这种分层音频驱动的视觉合成模块,提供了对表情和姿势多样性的自适应控制,更有效地实现了针对不同身份的个性化定制。这意味着,无论是谁的面部照片,都可以通过Hallo项目生成说话的视频,而且效果自然,仿佛真人在说话一般。
尽管Hallo项目的安装过程可能相对复杂,但它的出现无疑为开源生态带来了新的活力。随着技术的不断发展,我们可以期待未来会有更多这样的项目出现,为我们的生活带来更多的便利和乐趣。
插件地址:https://github.com/AIFSH/ComfyUI-Hallo