O projeto Hallo, de código aberto da Fudan, que gera vídeos de fala com base em áudio e imagens, já é compatível com o plugin ComfyUI. Embora a instalação exija várias dependências e tenha um nível de dificuldade relativamente alto, o surgimento desse ecossistema de código aberto oferece mais possibilidades e diversão para a conversão de imagens e outros processos.

image.png

O projeto Hallo permite que fotos de rostos comecem a falar com a entrada de áudio, acompanhadas de expressões correspondentes, com um resultado que parece muito natural. Este projeto utiliza um paradigma de difusão de ponta a ponta, introduzindo um módulo de síntese visual acionado por áudio em camadas para melhorar a precisão do alinhamento entre a entrada de áudio e a saída visual, incluindo os movimentos dos lábios, expressões e postura.

Este módulo de síntese visual acionado por áudio em camadas oferece controle adaptativo da diversidade de expressões e posturas, implementando de forma mais eficaz a personalização para diferentes identidades. Isso significa que, independentemente da foto do rosto, o projeto Hallo pode gerar vídeos de fala com resultados naturais, como se uma pessoa real estivesse falando.

Embora o processo de instalação do projeto Hallo possa ser relativamente complexo, sua aparição, sem dúvida, trouxe nova vitalidade ao ecossistema de código aberto. Com o desenvolvimento contínuo da tecnologia, podemos esperar que mais projetos como este surjam no futuro, trazendo mais conveniência e diversão para nossas vidas.

Endereço do plugin: https://github.com/AIFSH/ComfyUI-Hallo