Meta hat kürzlich in Zusammenarbeit mit der King Abdullah University of Science and Technology (KAUST) in Saudi-Arabien eine neue Reihe von Videodiffusionsmodellen namens MarDini vorgestellt. Dieses Modell vereinfacht und flexibilisiert die Erstellung hochwertiger Videos und ermöglicht eine Vielzahl von Aufgaben, wie das Auffüllen fehlender Frames in Videos, die Umwandlung einzelner Bilder in dynamische Szenen und sogar die Erweiterung kurzer Clips durch Hinzufügen natürlich fließender Frames.
Meta baut auf den Erfolgen des letzten Jahres im Bereich der KI-basierten Videogenerierung auf. Zuvor wurden bereits Modelle wie Emu Video und Emu Edit für die Text-zu-Video-Umwandlung und -bearbeitung vorgestellt. Noch vor der Veröffentlichung von MarDini in diesem Jahr, wurde der fortschrittliche Videoeditor Movie Gen präsentiert. Dies zeigt Metas Engagement für die Bereitstellung leistungsstarker Tools für Videoersteller.
Die Stärke von MarDini liegt in seiner Fähigkeit, Videos basierend auf einer beliebigen Anzahl von Maskierungsframes zu generieren und verschiedene Aufgaben wie Video-Interpolation, Bild-zu-Video-Umwandlung und Video-Erweiterung zu unterstützen.
Bild-zu-Video-Ergebnisse
Eine Hauptanwendung von MarDini ist die Generierung von Videos aus Bildern. Diese Funktion wird demonstriert, indem ein Referenzframe in der Mitte als Bedingungsinput verwendet und 16 zusätzliche Frames generiert werden. In den offiziellen Beispielvideos sind 17 Frames mit 8 FPS gerendert, was ein flüssiges 2-Sekunden-Video ergibt.
Videoerweiterungs-Ergebnisse
MarDini kann auch Videos beliebiger Länge erweitern. Dies wird demonstriert, indem aus einem 5-Frame-Referenzvideo eine 2-Sekunden-Erweiterung generiert wird, wobei 12 neue Frames zu jeder Sequenz hinzugefügt werden.
Video-Interpolations-Ergebnisse
MarDini erreicht Video-Interpolation, indem es Zwischenframes generiert, wobei der erste und der letzte Frame als Steuersignale verwendet werden. Wenn diese Randframes identisch sind, kann MarDini nahtlose Schleifenvideos erstellen.
Die Funktionsweise von MarDini ist sehr interessant. Es verwendet eine fortschrittliche und effiziente Videogenerierungstechnologie, die hauptsächlich aus zwei Teilen besteht: einem Planungsmodell und einem Generierungsmodell. Zuerst interpretiert das Planungsmodell die niedrig aufgelösten Eingabeframes mithilfe der Masked Autoregressive (MAR)-Methode und generiert Steuersignale für die zu erstellenden Frames. Dann generiert das leichtgewichtige Generierungsmodell durch einen Diffusionsprozess detaillierte, hochaufgelöste Frames, um sicherzustellen, dass das endgültige Video flüssig und visuell ansprechend ist.
Im Gegensatz zu vielen Videomodellen, die komplexe, vorab trainierte Bildmodelle benötigen, kann MarDini angeblich von Grund auf mit unbeschrifteten Videodaten trainiert werden. Dies liegt an seiner progressiven Trainingsstrategie, die durch flexibles Anpassen der Maskierungsmethode der Frames während des Trainings ermöglicht, dass das Modell verschiedene Frame-Konfigurationen besser bewältigt.
Ein bemerkenswertes Merkmal von MarDini ist seine Flexibilität und Leistung. Es ist nicht nur leistungsstark, sondern auch effizient und eignet sich für größere Aufgaben. Das Modell kann verschiedene Aufgaben wie Video-Interpolation, Bild-zu-Video-Generierung und Video-Erweiterung bewältigen und sowohl bestehende Videoclips glätten als auch komplette Sequenzen von Grund auf erstellen.
In Bezug auf die Leistung setzt MarDini neue Maßstäbe, indem es qualitativ hochwertige Videos in weniger Schritten generiert. Dies macht es im Vergleich zu komplexeren Alternativen sowohl kostengünstiger als auch zeitsparender. Die offizielle Forschungsarbeit weist darauf hin, dass „unsere Modellierungsstrategie in verschiedenen Interpolations- und Animations-Benchmarks wettbewerbsfähig abschneidet und gleichzeitig den Rechenaufwand bei vergleichbarer Parametergröße reduziert.“
Projektseite: https://mardini-vidgen.github.io/
Highlights:
✨ MarDini ist ein neues Videogenerierungsmodell von Meta und KAUST, das verschiedene Aufgaben der Videoproduktion einfach bewältigt.
🎥 Das Modell kombiniert Planungs- und Generierungsmodelle für eine effiziente Video-Interpolation und Bild-zu-Video-Generierung.
💡 MarDini generiert qualitativ hochwertige Videos in weniger Schritten und verbessert deutlich die Flexibilität und Effizienz der Erstellung.