Lumière
Modèle de diffusion spatio-temporelle pour la génération de vidéos
Produit OrdinaireVidéoSynthèse vidéoTexte-vidéo
Lumière est un modèle de diffusion texte-vidéo conçu pour synthétiser des vidéos présentant des mouvements réalistes, variés et cohérents, et pour résoudre les défis clés de la synthèse vidéo. Nous introduisons une architecture spatio-temporelle U-Net capable de générer la durée totale d'une vidéo en une seule passe. Cela contraste avec les modèles vidéo existants qui synthétisent des images clés distantes puis procèdent à une sur-résolution temporelle, méthode qui rend intrinsèquement difficile la cohérence temporelle globale. En déployant un sous-échantillonnage et un sur-échantillonnage spatiaux et (surtout) temporels, et en utilisant un modèle de diffusion texte-image pré-entraîné, notre modèle apprend à générer directement des vidéos à faible résolution et pleine fréquence d'images à plusieurs échelles spatio-temporelles. Nous démontrons des résultats de pointe en génération texte-vidéo et montrons comment notre conception facilite aisément diverses tâches de création de contenu et d'applications d'édition vidéo, notamment la conversion image-vidéo, la réparation vidéo et la génération stylisée.
Lumière Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44