Récemment, la société d'IA Zhihu a publié en open source son nouveau modèle de génération de vidéo, CogVideoX-5B. Non seulement il surpasse son prédécesseur, CogVideoX-2B, en termes de qualité et d'effets visuels, mais ses performances d'inférence ont également été considérablement améliorées. Ainsi, une carte graphique GTX1080Ti, ancienne génération, peut désormais exécuter le modèle précédent, tandis qu'une carte graphique de bureau "haut de gamme", comme la RTX3060, peut gérer facilement ce nouveau modèle.
Comparaison détaillée des paramètres de CogVideoX-5B et CogVideoX-2B :
Ce modèle DiT (Diffusion Transformer) à grande échelle est conçu pour générer des vidéos à partir de texte. La technologie sous-jacente repose sur un auto-encodeur variationnel causal 3D (3D causal VAE), qui compresse les données vidéo dans un espace latent et les décode dans le temps pour une reconstruction vidéo efficace.
De plus, l'utilisation d'un transformateur expert (Expert Transformer) combine les plongements texte et vidéo. Il utilise le 3D-RoPE pour l'encodage de position, traite les données des deux modalités grâce à une normalisation adaptative par expert et utilise un mécanisme d'attention 3D complet pour la modélisation spatio-temporelle conjointe.
Code : https://top.aibase.com/tool/cogvideox
Téléchargement du modèle : https://huggingface.co/THUDM/CogVideoX-5b
Lien vers l'article : https://arxiv.org/pdf/2408.06072