FIFO-Diffusion es una novedosa técnica de inferencia basada en modelos de difusión preentrenados, para la generación de video condicionada por texto. Permite generar videos de longitud ilimitada sin necesidad de entrenamiento, mediante la ejecución iterativa de un proceso de desruidado diagonal, procesando simultáneamente niveles de ruido crecientes en una secuencia de fotogramas consecutivos en una cola; el método elimina un fotograma completamente desruidado de la cabeza de la cola e introduce un nuevo fotograma con ruido aleatorio en la cola. Además, se introduce la segmentación latente para reducir la brecha entre entrenamiento e inferencia, y se utiliza el desruidado prospectivo para aprovechar las ventajas de las referencias hacia adelante.