Recentemente, pesquisadores apresentaram uma nova tecnologia chamada JoyVASA, projetada para melhorar os efeitos de animação de imagem acionados por áudio. Com o desenvolvimento contínuo do aprendizado profundo e dos modelos de difusão, a animação de retratos acionada por áudio fez progressos significativos na qualidade do vídeo e na precisão da sincronização labial. No entanto, a complexidade dos modelos existentes aumentou os problemas de eficiência de treinamento e inferência, limitando também a duração do vídeo e a continuidade entre quadros.

O JoyVASA utiliza um design em duas etapas. Na primeira etapa, é introduzido um framework de representação facial desacoplado, separando as expressões faciais dinâmicas da representação facial tridimensional estática.

Essa separação permite que o sistema combine qualquer modelo facial 3D estático com sequências de movimentos dinâmicos, gerando vídeos de animação mais longos. Na segunda etapa, a equipe de pesquisa treinou um transformador de difusão capaz de gerar sequências de movimentos diretamente a partir de pistas de áudio, independentemente da identidade do personagem. Finalmente, com base no gerador treinado na primeira etapa, a representação facial 3D e a sequência de movimentos gerada são usadas como entrada para renderizar efeitos de animação de alta qualidade.

image.png

Vale ressaltar que o JoyVASA não se limita apenas à animação de retratos, mas também pode animar rostos de animais sem problemas. Este modelo foi treinado em um conjunto de dados misto, combinando dados chineses proprietários e dados ingleses públicos, demonstrando uma boa capacidade de suporte multilíngue. Os resultados experimentais comprovam a eficácia deste método. Pesquisas futuras se concentrarão na melhoria do desempenho em tempo real e no refinamento do controle de expressão, expandindo ainda mais as aplicações deste framework na animação de imagens.

O surgimento do JoyVASA marca um avanço importante na tecnologia de animação acionada por áudio, impulsionando novas possibilidades no campo da animação.

Acesso ao projeto: https://jdh-algo.github.io/JoyVASA/

Destaques:

🎨 A tecnologia JoyVASA, através do desacoplamento de expressões faciais e modelos 3D, permite a geração de vídeos de animação mais longos.

🔊 Esta tecnologia é capaz de gerar sequências de movimentos com base em pistas de áudio, possuindo a capacidade dupla de animar personagens e animais.

🌐 O JoyVASA foi treinado em conjuntos de dados chinês e inglês, possuindo suporte multilíngue e oferecendo serviços para usuários globais.