CogVideoX-5B : Un modèle de génération de vidéo open source offrant une qualité et des visuels supérieurs !

La communauté ModelScope de Modao a récemment annoncé la publication en open source de CogVideoX-5B, une version plus grande du modèle de génération vidéo open source chinois CogVideoX.

Comparé à CogVideoX-2B précédent, le nouveau modèle présente une amélioration significative de la qualité et des effets visuels de la génération vidéo.

微信截图_20240828081448.png

CogVideoX-5B est un modèle basé sur un transformateur de diffusion (DiT) à grande échelle, spécialement conçu pour la tâche de génération de vidéo à partir de texte. Le modèle utilise un auto-encodeur variationnel causal 3D (3D causal VAE) et la technique des Transformers experts. Il combine des embeddings texte et vidéo, utilise 3D-RoPE comme encodage de position et utilise un mécanisme d'attention complet 3D pour la modélisation conjointe spatio-temporelle.

De plus, le modèle utilise une technique d'entraînement progressif, permettant de générer des vidéos de haute qualité, cohérentes, de longue durée et présentant des caractéristiques de mouvement significatives.

Lien du modèle :

https://modelscope.cn/models/ZhipuAI/CogVideoX-5b

Actualités IA

CogVideoX-5B : Un modèle de génération de vidéo open source offrant une qualité et des visuels supérieurs !

AIbase基地