El modelo de generación de video DragNUWA, desarrollado por Microsoft, permite animar imágenes estáticas. Genera videos coherentes a través de la creación de trayectorias de movimiento mediante arrastre.
Este modelo admite el control simultáneo del movimiento de la cámara y de múltiples objetos, así como trayectorias complejas, generando videos con características de escenas del mundo real y pinturas artísticas. DragNUWA incorpora información de texto, imágenes y trayectorias para un control preciso del contenido del video desde una perspectiva semántica, espacial y temporal.
Los investigadores probaron el modelo en cuanto al movimiento de la cámara y trayectorias complejas, demostrando su capacidad para modelar y controlar con precisión movimientos complejos.
El proceso de entrenamiento del modelo incluye un muestreador de trayectorias, fusión multiescala y entrenamiento adaptativo. DragNUWA se entrenó utilizando los conjuntos de datos WebVid y VideoHD.
El modelo tiene un amplio potencial de aplicación en áreas como la producción de video y la creación de animaciones.