Alibaba Tongyi gibt die Open-Source-Veröffentlichung der Wan2.1-Modellreihe bekannt, darunter ein leistungsstarkes Video-Modell zur Erzeugung von Anfangs- und Endframes. Dieses Modell verwendet die fortschrittliche DiT-Architektur und erzielt mehrere technische Durchbrüche. Es reduziert die Rechenkosten für die Erzeugung von hochauflösenden Videos deutlich und gewährleistet gleichzeitig eine hohe zeitliche und räumliche Konsistenz der generierten Videos. Diese Open-Source-Veröffentlichung bietet Entwicklern und Kreativen ein leistungsstarkes Werkzeug und fördert die Entwicklung der Videogenerierungstechnologie.
Die von Alibaba Tongyi veröffentlichte Wan2.1-Modellreihe wurde in vielerlei Hinsicht optimiert und verbessert. Ein effizientes Video-Komprimierungs-VAE-Modell reduziert die Rechenkosten erheblich, wodurch die Erzeugung von hochauflösenden Videos effizienter und kostengünstiger wird. Der Transformer-Teil des Modells basiert auf der gängigen Video-DiT-Struktur. Durch den Full-Attention-Mechanismus werden langfristige räumlich-zeitliche Abhängigkeiten präzise erfasst, wodurch die hohe zeitliche und räumliche Konsistenz der generierten Videos gewährleistet wird. Darüber hinaus enthält das Video-Modell zur Erzeugung von Anfangs- und Endframes zusätzliche Steuerungszweige. Die vom Benutzer eingegebenen ersten und letzten Frames dienen als Steuerungsbedingung. Über diesen Zweig wird eine flüssige und präzise Transformation zwischen dem ersten und dem letzten Frame erreicht.
Bei der Trainings- und Inferenzoptimierung verwendet das Tongyi Wanxiang-Video-Modell zur Erzeugung von Anfangs- und Endframes eine Methode des Flow Matching basierend auf linearen Rauschtrajektorien. In der Trainingsphase wurde eine verteilte Strategie verwendet, die Datenparallelität (DP) und vollständig fragmentierte Datenparallelität (FSDP) kombiniert. Sie unterstützt das Training von Videoclips mit einer Auflösung von 720p und einer Dauer von 5 Sekunden. In der Inferenzphase wurden Strategien zur Modellfragmentierung und sequenziellen Parallelität eingesetzt, um die Inferenzzeit deutlich zu verkürzen. Gleichzeitig wurde ein FlashAttention3INT8- und FP8-gemischter Operator verwendet, um den Aufmerksamkeitsmechanismus auf 8 Bit zu quantisieren, um einen verlustfreien Inferenzeffekt zu gewährleisten.
Das Training des Modells erfolgt in drei Phasen, um die Fähigkeiten schrittweise zu verbessern. In der ersten Phase wird der gleiche Datensatz wie beim Basismodell verwendet, um bei einer Auflösung von 480p ein Mischtraining für Aufgaben wie Bild-zu-Video-Generierung, beliebige Zwischenbildinterpolation und Video-Fortsetzung durchzuführen. In der zweiten Phase werden spezielle Trainingsdaten für den Modus zur Erzeugung von Anfangs- und Endframes erstellt. Es werden Videoclips mit großen Unterschieden zwischen dem ersten und dem letzten Frame ausgewählt, um die Fähigkeit zur Erzeugung von Anfangs- und Endframes zu optimieren. In der dritten Phase werden hochauflösende Datensätze verwendet, um das endgültige Training bei einer Auflösung von 720p abzuschließen und sicherzustellen, dass die Detailtreue und die Bewegungsflüssigkeit des generierten Videos optimal sind.
Aufgrund der Leistungsfähigkeit des Tongyi Wanxiang-Video-Modells zur Erzeugung von Anfangs- und Endframes kann es nicht nur die Details des Eingabebildes perfekt reproduzieren, sondern auch Videos mit lebensechten Bewegungen erzeugen. Derzeit ist das Tongyi Wanxiang-Video-Modell zur Erzeugung von Anfangs- und Endframes auf GitHub Open Source verfügbar. Entwickler und Kreative sind herzlich eingeladen, es zu testen und wertvolles Feedback zu geben. Die Open-Source-Adressen lauten wie folgt:
- GitHub: https://github.com/Wan-Video/Wan2.1
- Hugging Face: https://huggingface.co/Wan-AI/Wan2.1-FLF2V-14B-720P
- Modelscope: https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P