智谱AI gibt die Open-Source-Veröffentlichung seines Videogenerierungsmodells CogVideoX bekannt, um die schnelle Entwicklung und Anwendung von Videogenerierungstechnologien voranzutreiben. CogVideoX basiert auf fortschrittlichen Large-Model-Technologien und erfüllt die Anforderungen kommerzieller Anwendungen.

Die aktuell veröffentlichte Version CogVideoX-2B benötigt für die Inferenz mit FP-16-Genauigkeit nur 18 GB Grafikspeicher und für das Fine-Tuning 40 GB. Dies ermöglicht die Inferenz mit einer einzigen 4090-Grafikkarte und das Fine-Tuning mit einer einzigen A6000-Grafikkarte.

CogVideoX verwendet die 3D-variationalen Autoencoder (3D VAE)-Technologie. Durch dreidimensionale Faltung werden gleichzeitig die räumlichen und zeitlichen Dimensionen des Videos komprimiert, was zu einer höheren Kompressionsrate und besserer Rekonstruktionsqualität führt. Die Modellstruktur umfasst Encoder, Decoder und einen Regularisierer für den latenten Raum. Zeitlich kausale Faltungen gewährleisten die Kausalität der Informationen. Darüber hinaus wird die Experten-Transformer-Technologie verwendet, um die codierten Videodaten zu verarbeiten und in Kombination mit Texteingaben qualitativ hochwertige Videoinhalte zu generieren.

微信截图_20240806095428.png

Für das Training von CogVideoX hat智谱AI eine Methode zur Auswahl hochwertiger Videodaten entwickelt, die übermäßig bearbeitete Videos und Videos mit inkonsistenten Bewegungen ausschließt und so die Datenqualität sicherstellt. Gleichzeitig wurde durch die Generierung von Video-Untertiteln aus Bild-Untertiteln das Problem des Mangels an Textbeschreibungen für Videodaten gelöst.

In Bezug auf die Leistungsbewertung zeigt CogVideoX hervorragende Ergebnisse bei verschiedenen Kennzahlen, darunter menschliche Aktionen, Szenen, Dynamik und Werkzeuge zur Bewertung von Videoschwerpunkten. 智谱AI wird die Innovation im Bereich der Videogenerierung weiter erforschen, einschließlich neuer Modellarchitekturen, Videokomprimierung und der Fusion von Text- und Videoinhalten.

Code-Repository:

https://github.com/THUDM/CogVideo

Modell-Download:

https://huggingface.co/THUDM/CogVideoX-2b

Technischer Bericht:

https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf