¿Está cansado de los videos cortos generados por IA que, aunque realistas, carecen de un cierto "sabor"? Ahora, una innovadora tecnología llamada Ajuste de Contexto Largo (Long Context Tuning, LCT) ha irrumpido en escena, otorgando a los modelos de generación de video con IA la capacidad de dirigir videos narrativos con múltiples tomas, al igual que las películas y series de televisión, cambiando libremente entre diferentes tomas para construir escenas de historias más coherentes y cautivadoras.
Anteriormente, los modelos de generación de video con IA de vanguardia, como SoRA, Kling y Gen3, ya podían crear videos realistas de un minuto de duración con una sola toma. Sin embargo, esto representaba una gran brecha con la necesidad de videos narrativos compuestos por múltiples tomas en el mundo real (como una escena en una película). Una escena de película suele estar compuesta por una serie de videos de tomas individuales que capturan el mismo evento de forma coherente.
Por ejemplo, en la película "Titanic", la icónica escena del encuentro de Jack y Rose en la cubierta incluye cuatro tomas principales: un primer plano de Jack girándose, un plano medio de Rose hablando, un plano amplio de Rose caminando hacia Jack y un primer plano de Jack abrazando a Rose por detrás. Generar una escena de este tipo requiere asegurar la coherencia visual (como la consistencia de las características de los personajes, el fondo, la iluminación y el tono) y la dinámica temporal (como el ritmo de los movimientos de los personajes y la suavidad del movimiento de la cámara) entre las diferentes tomas para garantizar la fluidez de la narrativa.
Para cerrar la brecha entre la generación de tomas individuales y la narración con múltiples tomas, los investigadores han propuesto varios métodos, pero la mayoría presentan limitaciones. Algunos métodos dependen de la introducción de elementos visuales clave (como la identidad de los personajes y el fondo) para forzar la coherencia visual entre las tomas, pero tienen dificultades para controlar elementos más abstractos como la iluminación y el tono. Otros métodos generan primero un conjunto de fotogramas clave coherentes y luego utilizan un modelo de imagen a video (I2V) para sintetizar cada toma de forma independiente, lo que dificulta la garantía de la coherencia temporal entre las tomas, y los fotogramas clave dispersos también limitan la eficacia de las condiciones.
La aparición de LCT tiene como objetivo resolver estos problemas. Es como instalar un "cerebro súper potente" en un modelo de difusión de video de toma individual preentrenado, permitiéndole procesar información de contexto más larga y aprender directamente la coherencia entre tomas a partir de datos de video a nivel de escena. El núcleo de LCT radica en los siguientes diseños innovadores:
Extensión del mecanismo de atención completa: LCT extiende el mecanismo de atención completa que se aplicaba originalmente a tomas individuales para incluir todas las tomas dentro de la escena. Esto significa que el modelo, al generar video, puede "prestar atención" simultáneamente a toda la información visual y textual de la escena, lo que permite comprender y mantener mejor las relaciones de dependencia entre tomas.
Incrustaciones de posición 3D entrelazadas: Para permitir que el modelo distinga los tokens (unidades básicas de texto y video) en diferentes tomas, LCT introduce una incrustación de posición rotacional 3D entrelazada (RoPE). Esto es como etiquetar cada toma y sus tokens internos con una "etiqueta" única, lo que permite al modelo reconocer la independencia de cada toma y comprender su relación posicional relativa dentro de la escena completa.
Estrategia de ruido asíncrono: LCT aplica de forma innovadora pasos de difusión de tiempo independientes a cada toma. Esto permite que el modelo aprenda las relaciones de dependencia dinámica entre diferentes tomas durante el entrenamiento y utilice la información entre tomas de forma más eficaz. Por ejemplo, cuando el nivel de ruido de una toma es bajo, puede servir naturalmente como una rica fuente de información visual para guiar el proceso de eliminación de ruido de otras tomas con mayor nivel de ruido. Esta estrategia también facilita la entrada de condiciones visuales posteriores y la generación conjunta.
Los resultados experimentales muestran que los modelos de toma individual ajustados con LCT muestran un excelente rendimiento en la generación de escenas coherentes con múltiples tomas y presentan nuevas capacidades sorprendentes. Por ejemplo, puede generar combinaciones basadas en la identidad de los personajes y las imágenes del entorno dadas, incluso si el modelo no ha recibido entrenamiento específico para este tipo de tareas. Además, el modelo LCT admite la extensión de tomas autorregresiva, ya sea la extensión continua de tomas individuales o la extensión de múltiples tomas con cambios de toma. Esta característica es especialmente útil para la creación de videos largos, ya que descompone la generación de videos largos en varios fragmentos de escenas, lo que facilita la modificación interactiva por parte de los usuarios.
Además, los investigadores descubrieron que, después de LCT, los modelos con atención bidireccional pueden ajustarse aún más a la atención causal contextual. Este mecanismo de atención mejorado mantiene la atención bidireccional dentro de cada toma, pero entre tomas, la información solo puede fluir de las tomas anteriores a las posteriores. Este flujo de información unidireccional permite el uso eficiente de la caché KV (un mecanismo de caché) durante la generación autorregresiva, lo que reduce significativamente el coste computacional.
Como se muestra en la Figura 1, la tecnología LCT se puede aplicar directamente a la producción de cortometrajes para lograr la generación de video a nivel de escena. Lo que es aún más emocionante es que también ha dado lugar a diversas capacidades emergentes, como la dirección interactiva de múltiples tomas, la extensión de tomas individuales y la generación combinada de muestras cero, aunque el modelo nunca se haya entrenado para estas tareas específicas. La Figura 2 muestra un ejemplo de datos de video a nivel de escena, que incluye una indicación global (que describe los personajes, el entorno y el resumen de la historia) y una descripción específica del evento para cada toma.
En resumen, el Ajuste de Contexto Largo (LCT) amplía la ventana de contexto de los modelos de difusión de video de toma individual, permitiéndoles aprender directamente la coherencia a nivel de escena a partir de los datos, abriendo nuevas vías para la creación de contenido visual más práctico. Esta tecnología no solo mejora la capacidad narrativa y la coherencia de los videos generados por IA, sino que también proporciona nuevas ideas para la generación futura de videos largos y la edición interactiva de videos. Tenemos razones para creer que la creación de videos futuros será más inteligente y creativa gracias a los avances de tecnologías como LCT.
Dirección del proyecto: https://guoyww.github.io/projects/long-context-video/
Dirección del artículo: https://arxiv.org/pdf/2503.10589