CausVid es un modelo de generación de vídeo avanzado que logra la generación de fotogramas de vídeo instantánea adaptando un transformador bidireccional de difusión preentrenado a un transformador causal. La importancia de esta tecnología radica en su capacidad para reducir significativamente la latencia de la generación de vídeo, permitiendo la generación en streaming a una velocidad de fotogramas interactiva (9,4 FPS) en una sola GPU. CausVid admite la generación de vídeo a partir de texto, así como la generación de vídeo a partir de imágenes con cero ejemplos, mostrando un nuevo nivel en la tecnología de generación de vídeo.