Die Shanghai Jieyue Xingchen Intelligent Technology Co., Ltd. gibt die Open-Source-Veröffentlichung ihres neuesten Bild-zu-Video-Modells – Step-Video-TI2V – bekannt. Dieses Modell basiert auf dem 30B-Parameter-Step-Video-T2V und kann Videos mit 102 Frames, 5 Sekunden und einer Auflösung von 540P generieren. Es zeichnet sich durch zwei Hauptmerkmale aus: kontrollierbare Bewegungsamplitude und kontrollierbare Kamerabewegung, wobei es besonders bei Anime-Effekten hervorragende Ergebnisse liefert.
Bei der Entwicklung von Step-Video-TI2V wurden zwei wichtige Optimierungen vorgenommen. Erstens wurde eine Bildbedingung eingeführt, um die Übereinstimmung zwischen dem generierten Video und dem Originalbild zu verbessern. Im Gegensatz zu traditionellen Cross-Attention-Methoden verwendet das Modell einen direkteren Ansatz: Die Vektorrepräsentation des Bildes wird direkt mit der Vektorrepräsentation des ersten Frames von DiT auf Kanalebene verknüpft, um die hohe Übereinstimmung zwischen dem generierten Video und dem Eingabebild zu gewährleisten. Zweitens wird durch das AdaLN-Modul eine Bewertung der Videodynamik eingeführt, sodass Benutzer bei der Videogenerierung verschiedene Bewegungsstufen angeben und die dynamische Amplitude des Videos präzise steuern können, um Dynamik, Stabilität und Konsistenz auszubalancieren. Darüber hinaus hat das Team die Hauptbewegungen und Kamerabewegungen gezielt und präzise annotiert, um die Leistung des Modells in Bezug auf Hauptdynamik und Kameraführung weiter zu verbessern.
Zu den Kernmerkmalen von Step-Video-TI2V gehören eine kontrollierbare Bewegungsamplitude, verschiedene Kameraführungsoptionen, hervorragende Anime-Effekte und die Unterstützung der Generierung in verschiedenen Größen. Benutzer können je nach kreativen Anforderungen frei zwischen dynamischen und stabilen Bildern wechseln und Videos mit Kameraführungseffekten generieren, die von grundlegenden Schwenks, Zooms und Hebungen bis hin zu komplexen, filmreifen Kamerafahrten reichen. Das Modell liefert besonders bei Anime-Aufgaben hervorragende Ergebnisse und eignet sich hervorragend für die Erstellung von Animationen und Kurzvideos. Gleichzeitig unterstützt es die Generierung von Bild-zu-Video-Inhalten in verschiedenen Größen, sowohl im Querformat, Hochformat als auch im quadratischen Format, um die Anforderungen verschiedener Plattformen zu erfüllen.
Testversion:
https://yuewen.cn/videos
GitHub:
https://github.com/stepfun-ai/Step-Video-TI2V
Github-ComfyUI:
https://github.com/stepfun-ai/ComfyUI-StepVideo