Le projet Hallo, open source de Fudan, permet de générer des vidéos parlantes à partir d'audio et d'images, et est désormais compatible avec le plugin ComfyUI. Bien que l'installation nécessite de nombreuses dépendances et présente un seuil d'entrée relativement élevé, l'émergence de cet écosystème open source ouvre de nouvelles possibilités et un plus grand potentiel ludique pour les transformations d'images et autres processus.
Le projet Hallo permet, à partir d'une entrée audio, de faire parler une photo de visage avec des expressions correspondantes, pour un résultat d'apparence très naturelle. Ce projet utilise un paradigme de diffusion de bout en bout, intégrant un module de synthèse visuelle piloté par l'audio hiérarchique afin d'améliorer la précision de l'alignement entre l'entrée audio et la sortie visuelle, notamment pour les mouvements des lèvres, des expressions et de la posture.
Ce module de synthèse visuelle piloté par l'audio hiérarchique offre un contrôle adaptatif de la diversité des expressions et des postures, permettant une personnalisation plus efficace pour différents individus. Cela signifie que quelle que soit la photo de visage utilisée, le projet Hallo peut générer une vidéo parlante avec un résultat naturel, comme si la personne parlait réellement.
Bien que le processus d'installation du projet Hallo puisse être relativement complexe, son apparition apporte sans aucun doute une nouvelle dynamique à l'écosystème open source. Avec le développement continu des technologies, nous pouvons nous attendre à voir émerger davantage de projets similaires à l'avenir, apportant plus de commodité et de plaisir à nos vies.
Adresse du plugin : https://github.com/AIFSH/ComfyUI-Hallo