Lumiere
Videogenerierendes Raum-Zeit-Diffusionsmodell
Normales ProduktVideoVideosyntheseText-zu-Video
Lumiere ist ein Text-zu-Video-Diffusionsmodell, das darauf abzielt, Videos mit realistischen, vielfältigen und kohärenten Bewegungen zu synthetisieren und zentrale Herausforderungen der Videosynthese zu bewältigen. Wir führen eine Raum-Zeit-U-Net-Architektur ein, die die gesamte zeitliche Dauer eines Videos in einem einzigen Durchgang generieren kann. Dies steht im Gegensatz zu bestehenden Videomodellen, die weit auseinanderliegende Schlüsselbilder synthetisieren und anschließend eine zeitliche Superauflösung durchführen – ein Verfahren, das die globale zeitliche Kohärenz im Wesentlichen erschwert. Durch den Einsatz von räumlicher und (entscheidend) zeitlicher Unter- und Übersampling und die Nutzung eines vortrainierten Text-zu-Bild-Diffusionsmodells lernt unser Modell, direkt Videos mit voller Bildrate und niedriger Auflösung in mehreren Raum-Zeit-Skalen zu generieren. Wir zeigen Ergebnisse der Text-zu-Video-Generierung auf dem neuesten Stand der Technik und demonstrieren, wie unser Design verschiedene Aufgaben der Inhaltserstellung und Videobearbeitung wie Bild-zu-Video, Videoinpainting und stilisierte Generierung mühelos unterstützt.
Lumiere Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44