Tencent gibt die Open-Source-Veröffentlichung seines neu entwickelten Frameworks zur Bild-zu-Video-Generierung bekannt – HunyuanVideo-I2V. Die Veröffentlichung dieses Modells stellt nach der erfolgreichen Open-Source-Veröffentlichung von HunyuanVideo einen weiteren wichtigen Fortschritt dar und zielt darauf ab, die eingehende Erforschung in der Open-Source-Community zu fördern.
HunyuanVideo-I2V kombiniert fortschrittliche Videogenerierungstechnologien und ermöglicht die Umwandlung statischer Bilder in lebendige Videoinhalte. Dies eröffnet Entwicklern neue Möglichkeiten.
HunyuanVideo-I2V nutzt ein vortrainiertes multimodales großes Sprachmodell als Text-Encoder, wodurch das Verständnis des Modells für den semantischen Inhalt des Eingabebildes deutlich verbessert wird. Das bedeutet, dass das eingegebene Bild vom Modell semantische Bildmarkierungen generieren kann. Diese Markierungen werden mit potenziellen Videomarkierungen kombiniert, um eine umfassendere Aufmerksamkeitsberechnung zu ermöglichen. Auf diese Weise kann das System die Synergie zwischen Bild- und Textmodalitäten maximieren und sicherstellen, dass die aus statischen Bildern generierten Videoinhalte kohärenter und realistischer sind.
Benutzer, die HunyuanVideo-I2V zur Videogenerierung verwenden möchten, erhalten von Tencent eine detaillierte Installationsanleitung und Benutzungsanleitung. Es sind bestimmte Hardwareanforderungen zu erfüllen. Für optimale Videoqualität wird eine NVIDIA GPU mit mindestens 80 GB Grafikspeicher empfohlen. Das System unterstützt die Generierung von Videos mit einer Auflösung von bis zu 720p und einer Länge von 129 Frames (ca. 5 Sekunden).
Um Nutzern die Verwendung des Modells zu erleichtern, hat Tencent einige Tipps veröffentlicht, z. B. die Aufforderung prägnant zu formulieren und sicherzustellen, dass die Hauptelemente enthalten sind, darunter das Hauptthema, die Aktion und der Hintergrund des Videos.
Projekt: https://github.com/Tencent/HunyuanVideo-I2V?tab=readme-ov-file