La communauté ModelScope de Modao a récemment annoncé la publication en open source de CogVideoX-5B, une version plus grande du modèle de génération vidéo open source chinois CogVideoX.
Comparé à CogVideoX-2B précédent, le nouveau modèle présente une amélioration significative de la qualité et des effets visuels de la génération vidéo.
CogVideoX-5B est un modèle basé sur un transformateur de diffusion (DiT) à grande échelle, spécialement conçu pour la tâche de génération de vidéo à partir de texte. Le modèle utilise un auto-encodeur variationnel causal 3D (3D causal VAE) et la technique des Transformers experts. Il combine des embeddings texte et vidéo, utilise 3D-RoPE comme encodage de position et utilise un mécanisme d'attention complet 3D pour la modélisation conjointe spatio-temporelle.
De plus, le modèle utilise une technique d'entraînement progressif, permettant de générer des vidéos de haute qualité, cohérentes, de longue durée et présentant des caractéristiques de mouvement significatives.
Lien du modèle :
https://modelscope.cn/models/ZhipuAI/CogVideoX-5b