En los últimos años, con el rápido desarrollo de la inteligencia artificial y la visión por computadora, la interacción entre humanos y computadoras se ha vuelto cada vez más vívida y expresiva. Especialmente en el campo de la producción de animación, la generación de videos dinámicos a partir de imágenes estáticas ha sido un tema de investigación candente.
Recientemente, una nueva tecnología llamada "DisPose" ha surgido para abordar este desafío. A través del desacoplamiento de la guía de postura, logra efectos de animación de imágenes de personajes más controlables. En pocas palabras, DisPose permite que un personaje de referencia realice las acciones de un video de entrada, simplemente ingresando el video de acción y el personaje de referencia.
El núcleo de la tecnología DisPose radica en la reconstrucción y el uso de la información de postura dispersa tradicional. Los métodos tradicionales dependen en gran medida de la guía de postura esquelética dispersa, lo que a menudo no proporciona suficientes señales de control al generar videos dinámicos, lo que resulta en efectos de animación poco refinados. Para compensar esta deficiencia, DisPose propone un nuevo método que transforma la información de postura dispersa en una guía de campo de movimiento y una relación de correspondencia de puntos clave, lo que permite una generación de movimiento más precisa.
Específicamente, DisPose primero calcula un campo de movimiento disperso a partir de la postura esquelética y, basándose en la imagen de referencia, introduce una forma de generar un campo de movimiento denso. Esta forma no solo proporciona señales de movimiento a nivel regional, sino que también mantiene la universalidad del control de postura dispersa. Simultáneamente, DisPose extrae características de difusión correspondientes a los puntos clave de la postura de la imagen de referencia y, luego, mediante el cálculo de relaciones de correspondencia de puntos multi-escala, transfiere estas características a la postura objetivo para mejorar la consistencia de la apariencia.
Para que esta tecnología innovadora pueda integrarse sin problemas en los modelos existentes, los investigadores también proponen una arquitectura ControlNet híbrida de tipo plug-in. Esta arquitectura, sin modificar los parámetros del modelo existente, mejora la calidad y la consistencia del video generado. A través de amplios experimentos cualitativos y cuantitativos, DisPose demuestra ventajas significativas sobre las tecnologías actuales, presagiando la dirección futura del desarrollo de la tecnología de producción de animación.
DisPose, mediante la optimización de la forma de utilizar la información de postura, mejora la expresividad y el control de la animación de retratos. Este avance no solo tiene un significado importante en la investigación académica, sino que también aporta nuevas posibilidades a la industria de la animación del futuro.
Enlace al proyecto: https://lihxxx.github.io/DisPose/
Puntos clave:
📍 DisPose es una nueva tecnología de animación de retratos que, mediante el desacoplamiento de la guía de postura, logra una generación dinámica más precisa.
🎨 Esta tecnología transforma la información de postura dispersa en una guía de campo de movimiento y correspondencia de puntos clave, proporcionando señales de movimiento detalladas.
🔧 La arquitectura ControlNet híbrida propuesta por los investigadores mejora eficazmente la calidad y la consistencia del video generado.