Heute hat das Zhihu-Technologieteam sein neuestes Video-Generierungsmodell CogVideoX v1.5 veröffentlicht und quelloffen zur Verfügung gestellt. Diese Version stellt einen weiteren wichtigen Fortschritt in der CogVideoX-Serie des Zhihu-Technologieteams seit August dar.

image.png

Berichten zufolge wurde die Video-Generierungsfähigkeit durch dieses Update erheblich verbessert. Dies umfasst die Unterstützung von Video-Längen von 5 und 10 Sekunden, eine Auflösung von 768P und die Generierung von 16 Bildern pro Sekunde. Gleichzeitig unterstützt das I2V-Modell (Bild-zu-Video) beliebige Seitenverhältnisse, wodurch das Verständnis komplexer Semantik weiter verbessert wird.

CogVideoX v1.5 umfasst zwei Hauptmodelle: CogVideoX v1.5-5B und CogVideoX v1.5-5B-I2V, um Entwicklern leistungsstärkere Tools zur Videogenerierung zu bieten.

Besonders erwähnenswert ist, dass CogVideoX v1.5 gleichzeitig auf der Qingying-Plattform verfügbar gemacht wird und mit dem neu eingeführten CogSound-Soundeffektmodell kombiniert wird, um „Neue Qingying“ zu bilden.Neue Qingying bietet zahlreiche spezielle Dienste, darunter eine deutliche Verbesserung der Videoqualität, Ästhetik und Bewegungslogik, sowie die Unterstützung für die Generierung von 10 Sekunden langen, 4K-Videos mit 60 Bildern pro Sekunde.

image.png

Die offizielle Beschreibung lautet wie folgt:

  • Qualitätsverbesserung: Deutliche Verbesserung der Qualität der Bild-zu-Video-Generierung, der Ästhetik, der Bewegungslogik und des Verständnisses komplexer Aufforderungen.

  • Ultrahohe Auflösung: Unterstützung für die Generierung von 10 Sekunden langen, 4K-Videos mit 60 Bildern pro Sekunde.

  • Variable Seitenverhältnisse: Unterstützung beliebiger Seitenverhältnisse für verschiedene Wiedergabeszenarien.

  • Mehrkanal-Ausgabe: Es können gleichzeitig vier Videos aus demselben Befehl/Bild generiert werden.

  • AI-Videos mit Soundeffekten: Neue Qingying kann zu den Bildern passende Soundeffekte generieren.

Bei der Datenverarbeitung konzentrierte sich das CogVideoX-Team auf die Verbesserung der Datenqualität. Es wurde ein automatisierter Filterrahmen entwickelt, um schlechte Videodaten zu entfernen, und ein End-to-End-Video-Verständnismodell, CogVLM2-caption, wurde eingeführt, um präzise Inhaltsbeschreibungen zu generieren. Dieses Modell kann komplexe Anweisungen effektiv verarbeiten und sicherstellen, dass die generierten Videos den Benutzeranforderungen entsprechen.

Um die Inhaltskohärenz zu verbessern, verwendet CogVideoX eine effiziente 3D-Variationsautoencoder (3D VAE)-Technologie, die die Trainingskosten und den Schwierigkeitsgrad deutlich reduziert. Darüber hinaus hat das Team eine Transformer-Architektur entwickelt, die Text-, Zeit- und Raum-3D-Dimensionen integriert. Durch das Entfernen traditioneller Cross-Attention-Module wird die Interaktion zwischen Text und Video verbessert und die Qualität der Videogenerierung gesteigert.

Zukünftig wird das Zhihu-Technologieteam die Datenmenge und die Modellgröße weiter vergrößern und effizientere Modellarchitekturen erforschen, um ein noch besseres Video-Generierungserlebnis zu ermöglichen. Die Open-Source-Veröffentlichung von CogVideoX v1.5 bietet Entwicklern nicht nur leistungsstarke Tools, sondern belebt auch das Gebiet der Videoproduktion.

Code: https://github.com/thudm/cogvideo

Modell: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

Wichtige Punkte:

🌟 Die neue Version CogVideoX v1.5 ist quelloffen und unterstützt 5/10 Sekunden lange Videos, 768P-Auflösung und die Generierung von 16 Bildern pro Sekunde.

🎨 Die neue Qingying-Plattform geht online und bietet in Kombination mit dem CogSound-Soundeffektmodell die Generierung von ultrahochauflösenden 4K-Videos.

📈 Datenverarbeitung und Algorithmusinnovation gewährleisten die Qualität und Kohärenz der generierten Videos.