DiTCtrl

Exploración del control de atención en transformadores de difusión multimodal para la generación de videos largos con múltiples indicaciones sin necesidad de ajuste fino.

Producto ComúnVideoGeneración de vídeoMultimodal
DiTCtrl es un modelo de generación de vídeo basado en la arquitectura de transformadores de difusión multimodal (MM-DiT), que se centra en la generación de vídeos de escenas coherentes con múltiples indicaciones consecutivas sin necesidad de entrenamiento adicional. El modelo logra un control semántico preciso y un compartición de la atención entre diferentes indicaciones mediante el análisis del mecanismo de atención de MM-DiT, generando así vídeos con transiciones suaves y un movimiento consistente de los objetos. Las principales ventajas de DiTCtrl son la ausencia de necesidad de entrenamiento, la capacidad de manejar tareas de generación de vídeo con múltiples indicaciones y la posibilidad de mostrar efectos de transición con estilo cinematográfico. Además, DiTCtrl proporciona un nuevo benchmark, MPVBench, específicamente diseñado para evaluar el rendimiento de la generación de vídeo con múltiples indicaciones.
Abrir sitio web

DiTCtrl Alternativas