智谱AI开源新型模型，即使旧显卡也能开启视频生成新时代

Récemment, la société d'IA Zhihu a publié en open source son nouveau modèle de génération de vidéo, CogVideoX-5B. Non seulement il surpasse son prédécesseur, CogVideoX-2B, en termes de qualité et d'effets visuels, mais ses performances d'inférence ont également été considérablement améliorées. Ainsi, une carte graphique GTX1080Ti, ancienne génération, peut désormais exécuter le modèle précédent, tandis qu'une carte graphique de bureau "haut de gamme", comme la RTX3060, peut gérer facilement ce nouveau modèle.

Comparaison détaillée des paramètres de CogVideoX-5B et CogVideoX-2B :

Ce modèle DiT (Diffusion Transformer) à grande échelle est conçu pour générer des vidéos à partir de texte. La technologie sous-jacente repose sur un auto-encodeur variationnel causal 3D (3D causal VAE), qui compresse les données vidéo dans un espace latent et les décode dans le temps pour une reconstruction vidéo efficace.

De plus, l'utilisation d'un transformateur expert (Expert Transformer) combine les plongements texte et vidéo. Il utilise le 3D-RoPE pour l'encodage de position, traite les données des deux modalités grâce à une normalisation adaptative par expert et utilise un mécanisme d'attention 3D complet pour la modélisation spatio-temporelle conjointe.

Code : https://top.aibase.com/tool/cogvideox

Téléchargement du modèle : https://huggingface.co/THUDM/CogVideoX-5b

Lien vers l'article : https://arxiv.org/pdf/2408.06072

Actualités IA

智谱AI开源新型模型，即使旧显卡也能开启视频生成新时代

AIbase基地

Recommandations d'actualités IA connexes

SeedVR : une nouvelle technologie de restauration vidéo qui transforme le flou en haute définition, pour les vidéos de toutes longueurs