CausVid é um modelo avançado de geração de vídeo que realiza a geração de quadros de vídeo instantânea adaptando transformadores bidirecionais de difusão pré-treinados para transformadores causais. A importância dessa tecnologia reside na sua capacidade de reduzir significativamente a latência da geração de vídeo, permitindo a geração contínua de vídeo em taxa de quadros interativa (9,4 FPS) em uma única GPU. O modelo CausVid suporta geração de vídeo a partir de texto e geração de imagem para vídeo de zero-shot, demonstrando um novo nível de tecnologia de geração de vídeo.