Kürzlich hat das Unternehmen Zhihu AI das neue Videogenerierungsmodell CogVideoX-5B Open Source veröffentlicht. Es übertrifft seinen Vorgänger CogVideoX-2B nicht nur in Bezug auf die Qualität und die visuellen Effekte der generierten Videos, sondern auch die Inferenzleistung wurde erheblich verbessert. Während die Vorgängerversion noch eine GTX1080Ti Grafikkarte benötigte, läuft das neue Modell problemlos auf einer „Mid-Range“-Grafikkarte wie der RTX3060.
Detaillierter Vergleich der Parameter von CogVideoX-5B und CogVideoX-2B:
Dieses groß angelegte DiT-Modell (Diffusion Transformer) wurde für die Text-zu-Video-Generierung entwickelt. Die zugrunde liegende Technologie umfasst einen 3D-kausalen VAE (variational autoencoder), der Videodaten in einen latenten Raum komprimiert und zeitlich decodiert, um eine effiziente Videorekonstruktion zu erreichen.
Darüber hinaus wird ein Expert Transformer verwendet, der Text- und Video-Einbettungen kombiniert. 3D-RoPE wird als Positionscodierung verwendet, und eine Expert Adaptive Layer Normalisierung verarbeitet die Daten beider Modalitäten. Eine 3D-Full-Attention-Mechanismus ermöglicht die gemeinsame räumlich-zeitliche Modellierung.
Code: https://top.aibase.com/tool/cogvideox
Modelldownload: https://huggingface.co/THUDM/CogVideoX-5b