Nos últimos anos, com o rápido desenvolvimento da inteligência artificial e da visão computacional, a interação entre humanos e computadores tornou-se cada vez mais vívida e expressiva. Especialmente na área de produção de animação, a geração de vídeos dinâmicos a partir de imagens estáticas tem sido um foco de pesquisa.

Recentemente, uma nova tecnologia chamada "DisPose" surgiu, que, por meio da orientação de postura desacoplada, alcança efeitos de animação de imagens de personagens mais controláveis. Simplificando, o DisPose permite que um personagem de referência realize os movimentos de um vídeo de entrada, usando esse vídeo e a imagem do personagem como entrada.

O núcleo da tecnologia DisPose reside na reconstrução e utilização de informações de postura esparsas tradicionais. Métodos tradicionais dependem muito da orientação de postura óssea esparsa, o que, na geração dinâmica de vídeos, muitas vezes não fornece sinais de controle suficientes, resultando em efeitos de animação não tão refinados. Para compensar essa deficiência, o DisPose propõe um novo método que transforma informações de postura esparsas em orientação de campo de movimento e correspondência de pontos-chave, permitindo a geração de movimento mais detalhada.

Especificamente, o DisPose primeiro calcula um campo de movimento esparso a partir da postura óssea e, com base na imagem de referência, introduz uma maneira de gerar um campo de movimento denso. Essa abordagem não apenas fornece sinais de movimento em nível de região, mas também mantém a generalidade do controle de postura esparsa. Simultaneamente, o DisPose extrai recursos de difusão correspondentes aos pontos-chave de postura da imagem de referência e, em seguida, calcula as correspondências de pontos em várias escalas, transferindo esses recursos para a postura de destino para melhorar a consistência da aparência.

Para que essa tecnologia inovadora possa ser integrada sem problemas aos modelos existentes, os pesquisadores também propuseram uma arquitetura ControlNet híbrida plug-in. Essa arquitetura melhora a qualidade e a consistência do vídeo gerado sem alterar os parâmetros do modelo existente. Por meio de experimentos qualitativos e quantitativos abrangentes, o DisPose demonstra vantagens significativas em relação às tecnologias atuais, prenunciando a direção futura do desenvolvimento da tecnologia de produção de animação.

O DisPose, ao otimizar a forma como as informações de postura são utilizadas, melhora a expressividade e o controle da animação de retratos. Esse avanço não apenas tem um significado importante na pesquisa acadêmica, mas também traz novas possibilidades para a indústria de animação futura.

Link do projeto: https://lihxxx.github.io/DisPose/

Pontos importantes:

📍 DisPose é uma nova técnica de animação de retratos que, por meio da orientação de postura desacoplada, permite uma geração dinâmica mais precisa.

🎨 Essa técnica transforma informações de postura esparsas em orientação de campo de movimento e correspondência de pontos-chave, fornecendo sinais de movimento detalhados.

🔧 A arquitetura ControlNet híbrida proposta pelos pesquisadores melhora eficazmente a qualidade e a consistência do vídeo gerado.