Lumière

Modèle de diffusion spatio-temporelle pour la génération de vidéos

Produit OrdinaireVidéoSynthèse vidéoTexte-vidéo
Lumière est un modèle de diffusion texte-vidéo conçu pour synthétiser des vidéos présentant des mouvements réalistes, variés et cohérents, et pour résoudre les défis clés de la synthèse vidéo. Nous introduisons une architecture spatio-temporelle U-Net capable de générer la durée totale d'une vidéo en une seule passe. Cela contraste avec les modèles vidéo existants qui synthétisent des images clés distantes puis procèdent à une sur-résolution temporelle, méthode qui rend intrinsèquement difficile la cohérence temporelle globale. En déployant un sous-échantillonnage et un sur-échantillonnage spatiaux et (surtout) temporels, et en utilisant un modèle de diffusion texte-image pré-entraîné, notre modèle apprend à générer directement des vidéos à faible résolution et pleine fréquence d'images à plusieurs échelles spatio-temporelles. Nous démontrons des résultats de pointe en génération texte-vidéo et montrons comment notre conception facilite aisément diverses tâches de création de contenu et d'applications d'édition vidéo, notamment la conversion image-vidéo, la réparation vidéo et la génération stylisée.
Ouvrir le site Web

Lumière Dernière situation du trafic

Nombre total de visites mensuelles

29742941

Taux de rebond

44.20%

Nombre moyen de pages par visite

5.9

Durée moyenne de la visite

00:04:44

Lumière Tendance des visites

Lumière Distribution géographique des visites

Lumière Sources de trafic

Lumière Alternatives