Recientemente, la empresa de inteligencia artificial Rhymes AI lanzó oficialmente Allegro, su avanzado modelo de generación de video a partir de texto. Allegro permite a los usuarios convertir descripciones textuales sencillas en clips de video cortos de alta calidad, abriendo nuevas posibilidades para creadores, desarrolladores e investigadores en el campo de la generación de video con IA.

Allegro puede generar videos de alta calidad de 6 segundos, 15 fps y 720p de resolución a partir de indicaciones de texto proporcionadas por el usuario. Abarca una variedad de temas cinematográficos, desde primeros planos de personas y animales hasta acciones en diversas escenas, pudiendo realizar prácticamente cualquier escenario basado en una descripción textual.

La tecnología central de Allegro incluye el procesamiento a gran escala de datos de video, la compresión de videos originales en tokens visuales y la extensión del Transformer de difusión de video.

En cuanto al procesamiento a gran escala de datos de video, Rhymes AI diseñó una canalización de procesamiento y filtrado de datos del sistema para extraer videos de entrenamiento de los datos originales, y desarrolló un sistema de datos estructurados para clasificar y agrupar los datos en múltiples dimensiones, facilitando así el entrenamiento y el ajuste fino del modelo.

En cuanto a la compresión de video en tokens visuales, Allegro utiliza un autocodificador variacional de video (VideoVAE) para comprimir videos originales en tokens visuales más pequeños, logrando una generación de video más fluida y eficiente al tiempo que conserva los detalles necesarios. VideoVAE se basa en un VAE de imagen preentrenado y amplía las capas de modelado espacio-temporales, utilizando eficazmente la capacidad de compresión espacial.

En cuanto a la extensión del Transformer de difusión de video, el núcleo de Allegro es su arquitectura Transformer de difusión extendida, que aplica modelos de difusión para generar fotogramas de video de alta resolución, garantizando la calidad y fluidez del movimiento del video. La red troncal de Allegro se basa en la arquitectura DiT (Diffusion Transformer), con incrustaciones de posición 3D RoPE y un mecanismo de atención completo 3D. En comparación con los modelos de difusión tradicionales que utilizan la arquitectura UNet, la estructura Transformer es más propicia para la expansión del modelo. Al utilizar el mecanismo de atención 3D, DiT puede procesar simultáneamente la dimensión espacial de los fotogramas de video y su evolución temporal, lo que permite una comprensión más detallada del movimiento y el contexto.

Rhymes AI afirma que Allegro es solo el comienzo, y el equipo está desarrollando activamente funciones más avanzadas, incluida la generación de imagen a video, el control del movimiento y la compatibilidad con la generación de videos más largos, basados en narrativas y con estilo de storyboard.

Para facilitar el acceso a la creación de videos impulsada por IA a una gama más amplia de usuarios, Rhymes AI ha abierto completamente el código y los pesos del modelo de Allegro, animando a la comunidad a explorar, liberar su creatividad y construir sobre esta base para lograr un progreso colaborativo en la tecnología de generación de video con IA.

Dirección del proyecto: https://github.com/rhymes-ai/Allegro