Recentemente, a ByteDance lançou uma nova tecnologia de animação de retrato, o X-Portrait2, com o objetivo de criar animações de personagens expressivas e realistas de forma altamente eficiente e com baixo custo. Os usuários precisam apenas fornecer uma imagem de retrato estática e um vídeo de atuação como referência. O X-Portrait2 gera um vídeo de animação transferindo as expressões do vídeo para o retrato, simplificando o complexo processo tradicional de captura de movimento e animação de personagens.

O núcleo da tecnologia reside em seu modelo avançado de codificador de expressões, treinado em um conjunto de dados em larga escala, capaz de codificar implicitamente microexpressões na entrada. Combinado com um poderoso modelo de difusão generativa, o X-Portrait2 pode gerar vídeos fluidos e expressivos, transmitindo sutis expressões faciais do ator, incluindo expressões desafiadoras como biquinho, língua para fora, bochechas infladas e sobrancelhas franzidas. Ao mesmo tempo, a fidelidade emocional dos vídeos gerados é mantida.

Durante o treinamento do codificador de expressões, a equipe de desenvolvimento garantiu uma forte separação entre aparência e movimento, permitindo que o codificador se concentrasse nas informações relacionadas à expressão no vídeo. Esse design permite que o modelo realize a transferência de expressões entre estilos e domínios, sendo adequado para diversas aplicações, como narrativa realista, animação de personagens, agentes virtuais e efeitos visuais.

Em comparação com os métodos mais avançados existentes, como X-Portrait e Runway Act-One, o X-Portrait2 demonstra maior precisão em movimentos rápidos da cabeça, pequenas mudanças de expressão e transmissão de emoções pessoais – aspectos cruciais para a criação de conteúdo de animação de alta qualidade, como animações em filmes e séries.

Endereço: https://byteaigc.github.io/X-Portrait2/