Recientemente, un equipo de investigación conjunto de Kuaishou, la Universidad de Pekín y la Universidad de Ciencia y Tecnología de Pekín ha lanzado un modelo de generación de vídeo de ultra alta definición de código abierto llamado Pyramid-Flow.
Este modelo puede generar vídeos de hasta 10 segundos de duración, con una resolución de 1280x768 píxeles y 24 fotogramas por segundo, a partir de una descripción textual. La calidad es excepcional, con excelentes efectos de iluminación, coherencia de movimiento y calidad de vídeo en general.
El principio de funcionamiento de Pyramid Flow difiere de los modelos de difusión de vídeo existentes. Los modelos existentes suelen funcionar a resolución completa, lo que, aunque produce resultados de alta calidad, consume una gran cantidad de recursos computacionales. Pyramid Flow, en cambio, utiliza la flexibilidad de la correspondencia de flujo para interpolar entre diferentes resoluciones y niveles de ruido, lo que permite generar y descomprimir contenido de vídeo de forma más eficiente.
Todo esto se optimiza mediante un único marco llamado DiT, lo que reduce considerablemente el tiempo de entrenamiento. Pyramid-Flow, entrenado en una GPU A100 durante solo 20.700 horas, presenta un consumo de energía y una eficiencia muy superiores a los modelos similares del mercado. Esto supone una gran ayuda para las pequeñas y medianas empresas y los desarrolladores individuales que no disponen de una gran capacidad de cálculo.
La innovación de Pyramid-Flow radica en el uso de una técnica llamada correspondencia de flujo piramidal. Este método descompone la generación de vídeo en varias etapas de diferente resolución, comenzando con un boceto de baja resolución y aumentando gradualmente hasta una resolución alta. Este diseño reduce la carga computacional y aumenta la flexibilidad de la generación. Cada etapa evoluciona a partir de una representación de ruido pixelado hasta que se vuelve nítida. Para garantizar la continuidad entre las etapas, el algoritmo reintroduce algo de ruido durante la transición.
Además, el modelo utiliza un marco autorregresivo y un mecanismo de atención causal por bloques, lo que permite generar cada fotograma basándose en los fotogramas anteriores, asegurando la coherencia y la lógica del vídeo.
Ejemplo oficial: Vídeo generado de 10 segundos
Ejemplo oficial: Imagen generada en vídeo
En cuanto al rendimiento, Pyramid Flow destaca en las principales plataformas de comparación. En comparación con algunos modelos comerciales del mercado, a pesar de utilizar únicamente datos de vídeo públicos, no se queda atrás en términos de calidad y fluidez. Además, las encuestas a usuarios muestran una satisfacción generalizada con los resultados de generación de Pyramid Flow, especialmente en cuanto a la suavidad del movimiento del vídeo.
Tanto para los creadores que desean generar contenido de vídeo atractivo como para los investigadores que exploran nuevas tecnologías, Pyramid Flow ofrece una opción eficiente y fácil de usar.
Enlace al proyecto: https://huggingface.co/rain1011/pyramid-flow-sd3
Puntos clave:
🌟 Esta tecnología puede generar vídeos de 768p de resolución, 24 fps y 10 segundos de duración, y admite la generación de vídeo a partir de imágenes.
💡 Utiliza un método de correspondencia de flujo para interpolar entre diferentes resoluciones y niveles de ruido, mejorando así la eficiencia computacional.
🚀 Presenta un rendimiento excelente en varias plataformas, y los usuarios en general valoran muy positivamente sus resultados de generación de vídeo.