DisPose: Gere vídeos de dança com base em vídeos de ação e personagens de referência

Nos últimos anos, com o rápido desenvolvimento da inteligência artificial e da visão computacional, a interação entre humanos e computadores tornou-se cada vez mais vívida e expressiva. Especialmente na área de produção de animação, a geração de vídeos dinâmicos a partir de imagens estáticas tem sido um foco de pesquisa.

Recentemente, uma nova tecnologia chamada "DisPose" surgiu, que, por meio da orientação de postura desacoplada, alcança efeitos de animação de imagens de personagens mais controláveis. Simplificando, o DisPose permite que um personagem de referência realize os movimentos de um vídeo de entrada, usando esse vídeo e a imagem do personagem como entrada.

O núcleo da tecnologia DisPose reside na reconstrução e utilização de informações de postura esparsas tradicionais. Métodos tradicionais dependem muito da orientação de postura óssea esparsa, o que, na geração dinâmica de vídeos, muitas vezes não fornece sinais de controle suficientes, resultando em efeitos de animação não tão refinados. Para compensar essa deficiência, o DisPose propõe um novo método que transforma informações de postura esparsas em orientação de campo de movimento e correspondência de pontos-chave, permitindo a geração de movimento mais detalhada.

Especificamente, o DisPose primeiro calcula um campo de movimento esparso a partir da postura óssea e, com base na imagem de referência, introduz uma maneira de gerar um campo de movimento denso. Essa abordagem não apenas fornece sinais de movimento em nível de região, mas também mantém a generalidade do controle de postura esparsa. Simultaneamente, o DisPose extrai recursos de difusão correspondentes aos pontos-chave de postura da imagem de referência e, em seguida, calcula as correspondências de pontos em várias escalas, transferindo esses recursos para a postura de destino para melhorar a consistência da aparência.

Para que essa tecnologia inovadora possa ser integrada sem problemas aos modelos existentes, os pesquisadores também propuseram uma arquitetura ControlNet híbrida plug-in. Essa arquitetura melhora a qualidade e a consistência do vídeo gerado sem alterar os parâmetros do modelo existente. Por meio de experimentos qualitativos e quantitativos abrangentes, o DisPose demonstra vantagens significativas em relação às tecnologias atuais, prenunciando a direção futura do desenvolvimento da tecnologia de produção de animação.

O DisPose, ao otimizar a forma como as informações de postura são utilizadas, melhora a expressividade e o controle da animação de retratos. Esse avanço não apenas tem um significado importante na pesquisa acadêmica, mas também traz novas possibilidades para a indústria de animação futura.

Link do projeto: https://lihxxx.github.io/DisPose/

Pontos importantes:
📍 DisPose é uma nova técnica de animação de retratos que, por meio da orientação de postura desacoplada, permite uma geração dinâmica mais precisa.
🎨 Essa técnica transforma informações de postura esparsas em orientação de campo de movimento e correspondência de pontos-chave, fornecendo sinais de movimento detalhados.
🔧 A arquitetura ControlNet híbrida proposta pelos pesquisadores melhora eficazmente a qualidade e a consistência do vídeo gerado.

Notícias e Informações de IA

DisPose: Gere vídeos de dança com base em vídeos de ação e personagens de referência

AIbase基地

Notícias de IA Relacionadas Recomendadas

Apresentado como o OCR mais poderoso do mundo! Análise completa da nova API OCR da Mistral

Quantexa arrecada US$ 175 milhões, atingindo avaliação de US$ 2,6 bilhões, impulsionando negócios de análise de dados e IA

CoreWeave adquire a plataforma de desenvolvimento de IA Weights&Biases para acelerar a inovação em inteligência artificial

Estudo de Stanford revela: adoção de ferramentas de escrita de IA é mais rápida em regiões com baixa escolaridade