Recientemente, un equipo de investigación de la Universidad Tsinghua ha publicado de código abierto su último logro: Video-T1. El núcleo de esta tecnología radica en el escalado en tiempo de prueba (Test-Time Scaling, TTS), que busca mejorar significativamente la calidad del vídeo generado y su coherencia con las indicaciones de texto al invertir más recursos computacionales en la fase de inferencia del proceso de generación de vídeo, sin necesidad de volver a realizar un costoso entrenamiento del modelo. Este método innovador abre nuevas posibilidades en el campo de la generación de vídeo.
¿Qué es el "escalado en tiempo de prueba"?
En el campo de los grandes modelos de lenguaje (LLM), los investigadores han descubierto que aumentar la capacidad de cálculo en la fase de prueba puede mejorar eficazmente el rendimiento del modelo. Video-T1 adopta esta idea y la aplica al campo de la generación de vídeo. En pocas palabras, los modelos tradicionales de generación de vídeo generan directamente un vídeo después de recibir una indicación de texto.
Sin embargo, Video-T1, que utiliza TTS, es como si realizara varias "búsquedas" y "filtrados" durante el proceso de generación de vídeo. Genera varios vídeos candidatos y utiliza un "validador de prueba" para evaluarlos, seleccionando finalmente el vídeo de mayor calidad. Es como un artista que trabaja con precisión, probando diferentes métodos y detalles antes de completar su obra final.
La tecnología central de Video-T1
Video-T1 no aumenta directamente el coste del entrenamiento, sino que se centra en cómo utilizar más eficazmente las capacidades del modelo existente. Su método principal puede entenderse como la búsqueda de una trayectoria de generación de vídeo óptima en el "espacio de ruido" del modelo. Para lograr este objetivo, el equipo de investigación propuso dos estrategias de búsqueda principales:
Búsqueda lineal aleatoria (Random Linear Search): Este método consiste en muestrear aleatoriamente varios ruidos gaussianos, haciendo que el modelo de generación de vídeo realice una eliminación gradual de ruido en estos ruidos, generando varios fragmentos de vídeo candidatos. A continuación, un validador de prueba puntúa estos vídeos candidatos y finalmente selecciona el vídeo con la puntuación más alta.
Búsqueda en árbol de fotogramas (Tree-of-Frames, ToF): Teniendo en cuenta que la eliminación de ruido completa de todos los fotogramas simultáneamente conlleva un enorme coste computacional, ToF adopta una estrategia más eficiente. Divide el proceso de generación de vídeo en tres fases: en primer lugar, realiza un alineamiento a nivel de imagen, que influye en la generación de fotogramas posteriores; en segundo lugar, utiliza indicaciones dinámicas en el validador de prueba, centrándose en la estabilidad del movimiento y la coherencia física, y guiando el proceso de búsqueda en función de los comentarios; por último, evalúa la calidad general del vídeo y selecciona el vídeo que mejor se alinea con la indicación de texto. Esta forma autorregresiva de ToF permite explorar de forma más inteligente las posibilidades de generación de vídeo.
Efectos notables de TTS
Los resultados experimentales muestran que, a medida que aumenta la capacidad de cálculo en tiempo de prueba (es decir, se generan más vídeos candidatos), el rendimiento del modelo mejora continuamente. Esto significa que, invirtiendo más tiempo de inferencia, incluso con el mismo modelo de generación de vídeo, se pueden generar vídeos de mayor calidad y más coherentes con las indicaciones de texto. Los investigadores realizaron experimentos en varios modelos de generación de vídeo, y los resultados mostraron que TTS puede mejorar el rendimiento de forma estable. Al mismo tiempo, los diferentes validadores de prueba se centran en diferentes aspectos de la evaluación, por lo que también existen diferencias en la velocidad y el grado de mejora del rendimiento.
El método TTS de Video-T1 ha logrado mejoras significativas en las categorías de indicaciones comunes (como escenas y objetos) y en las dimensiones fáciles de evaluar (como la calidad de la imagen). Al observar la demostración de vídeo proporcionada oficialmente, se puede ver que los vídeos procesados con TTS muestran una mejora significativa en la nitidez, los detalles y la coherencia con la descripción del texto. Por ejemplo, en el vídeo que describe a "un gato con gafas de sol haciendo de socorrista en la piscina", después del procesamiento con TTS, la imagen del gato es más clara y los movimientos del socorrista son más naturales.
Desafíos y perspectivas
Aunque TTS ha supuesto un progreso significativo en muchos aspectos, los investigadores también señalan que, para algunos atributos potenciales difíciles de evaluar, como la fluidez del movimiento y la coherencia temporal (evitando el parpadeo de la imagen), el efecto de mejora de TTS es relativamente limitado. Esto se debe principalmente a que estos atributos requieren un control preciso de la trayectoria del movimiento entre fotogramas, y los modelos actuales de generación de vídeo siguen enfrentándose a este desafío.
Video-T1, de código abierto de la Universidad Tsinghua, ofrece una nueva vía eficaz para mejorar la calidad de la generación de vídeo mediante una innovadora estrategia de escalado en tiempo de prueba. No requiere un costoso reentrenamiento, sino que aprovecha de forma más inteligente los recursos computacionales en tiempo de inferencia para que los modelos existentes muestren una capacidad mayor. Con el avance de las investigaciones futuras, tenemos razones para esperar que la tecnología TTS desempeñe un papel cada vez más importante en el campo de la generación de vídeo.
Proyecto:https://top.aibase.com/tool/video-t1