DisPose es un método para controlar la animación de imágenes humanas que mejora la calidad de la generación de vídeo mediante la guía de campos de movimiento y la correspondencia de puntos clave. Esta tecnología permite generar vídeos a partir de una imagen de referencia y un vídeo de conducción, manteniendo la alineación del movimiento y la coherencia de la identidad. DisPose genera campos de movimiento densos a partir de campos de movimiento dispersos e imágenes de referencia, proporcionando una guía densa a nivel de región, al tiempo que mantiene la capacidad de generalización del control de postura disperso. Además, extrae características de difusión correspondientes a los puntos clave de postura de la imagen de referencia y transfiere estas características puntuales a la postura objetivo para proporcionar información de identidad única. Las principales ventajas de DisPose incluyen la extracción de señales de control más generales y eficaces sin necesidad de entradas densas adicionales, y la mejora de la calidad y coherencia del vídeo generado mediante ControlNet híbrido plug-and-play sin congelar los parámetros del modelo existente.