智谱AI a lancé CogVideoX, un modèle de génération vidéo de nouvelle génération, marquant une nouvelle avancée importante dans le développement de la technologie multimodale de l'entreprise.
Les principales caractéristiques techniques de CogVideoX incluent :
Architecture d'autoencodeur variationnel tridimensionnel (3D VAE) : cette architecture développée par Zhihu AI permet de compresser les données vidéo brutes à 2 % de leur taille d'origine, réduisant ainsi les coûts et la difficulté de l'entraînement. Combinée au module d'encodage de position 3D RoPE, elle améliore la capacité de capture des relations inter-images dans la dimension temporelle, établissant des dépendances à long terme dans la vidéo.
Modèle de compréhension vidéo de bout en bout : améliore la compréhension du texte et le respect des instructions par le modèle, garantissant que la vidéo générée répond mieux aux besoins de l'utilisateur et peut traiter des instructions d'invite très longues et complexes.
Architecture Transformer intégrant les trois dimensions texte, temps et espace : une conception innovante du bloc Expert permet l'alignement spatial des modalités texte et vidéo, et le mécanisme Full Attention optimise les effets d'interaction inter-modalités.
Le modèle CogVideoX est disponible sur les versions PC, mobile et mini-programme de Zhihu Qingyan. Les utilisateurs peuvent profiter gratuitement du service de génération de vidéos à partir de texte AI et de génération de vidéos à partir d'images via la fonction « Qingying » (Ying). Les principales caractéristiques de Qingying incluent une génération rapide, une capacité de suivi des instructions efficace, la cohérence du contenu et la flexibilité de la planification des images.
De plus, « Qingying » est également déployé sur la plateforme ouverte de grands modèles Zhihu, bigmodel.cn. Les entreprises et les développeurs peuvent utiliser ses fonctionnalités via une API. Zhihu AI a vérifié l'efficacité de la loi d'échelle dans le domaine de la génération vidéo et continuera d'augmenter l'échelle des données et des modèles, de rechercher de nouvelles architectures de modèles afin de compresser les informations vidéo plus efficacement et d'intégrer plus complètement le texte et le contenu vidéo.
Adresse d'essai :https://top.aibase.com/tool/qingying-ai-shipinshengchengfuwu