Aujourd'hui, l'équipe technique de Zhipu a publié son dernier modèle de génération de vidéo, CogVideoX v1.5, et l'a mis en open source. Cette version représente une avancée majeure dans la série CogVideoX de Zhipu, lancée depuis août.

image.png

Selon les informations disponibles, cette mise à jour améliore considérablement les capacités de génération vidéo, notamment en prenant en charge des vidéos de 5 et 10 secondes, une résolution de 768P et une capacité de génération de 16 images par seconde. Parallèlement, le modèle I2V (image vers vidéo) prend désormais en charge des proportions de taille arbitraires, renforçant ainsi sa compréhension des sémantiques complexes.

CogVideoX v1.5 comprend deux modèles principaux : CogVideoX v1.5-5B et CogVideoX v1.5-5B-I2V, conçus pour fournir aux développeurs des outils de génération vidéo plus puissants.

Plus intéressant encore, CogVideoX v1.5 sera simultanément mis en ligne sur la plateforme Qingying et couplé au nouveau modèle d'effets sonores CogSound pour former la « nouvelle Qingying ».La nouvelle Qingying offrira de nombreux services spécifiques, notamment une amélioration significative de la qualité vidéo, une meilleure esthétique et une plus grande cohérence des mouvements, avec la possibilité de générer des vidéos ultra-haute définition de 10 secondes, 4K et 60 images par seconde.

image.png

Présentation officielle :

  • Amélioration de la qualité : Amélioration significative des capacités en termes de qualité de la vidéo générée à partir d’images, d’esthétique, de cohérence des mouvements et de compréhension sémantique des invites complexes.

  • Résolution ultra-haute définition : Prise en charge de la génération de vidéos ultra-haute définition de 10 secondes, 4K et 60 images par seconde.

  • Ratio variable : Prise en charge de n’importe quel ratio, pour s’adapter à différents contextes de lecture.

  • Sortie multicanal : Possibilité de générer quatre vidéos simultanément à partir d’une même instruction/image.

  • Vidéo IA avec effets sonores : La nouvelle Qingying peut générer des effets sonores correspondant aux images.

En matière de traitement des données, l’équipe CogVideoX s’est concentrée sur l’amélioration de la qualité des données, en développant un cadre de filtrage automatisé pour éliminer les données vidéo de mauvaise qualité, et en lançant un modèle de compréhension vidéo de bout en bout, CogVLM2-caption, pour générer des descriptions de contenu précises. Ce modèle permet de traiter efficacement les instructions complexes et de garantir que les vidéos générées correspondent aux besoins des utilisateurs.

Pour améliorer la cohérence du contenu, CogVideoX utilise une technologie efficace d’autoencodeur variationnel tridimensionnel (3D VAE), réduisant considérablement les coûts et la difficulté de l’entraînement. De plus, l’équipe a développé une architecture Transformer intégrant les dimensions textuelles, temporelles et spatiales, améliorant l’interaction entre le texte et la vidéo et la qualité de la génération vidéo en supprimant les modules d’attention croisée traditionnels.

À l’avenir, l’équipe technique de Zhipu continuera d’augmenter le volume de données et l’échelle des modèles, et explorera des architectures de modèles plus efficaces afin d’offrir une expérience de génération vidéo de meilleure qualité. La mise en open source de CogVideoX v1.5 fournit non seulement aux développeurs des outils puissants, mais injecte également une nouvelle vitalité dans le domaine de la création vidéo.

Code : https://github.com/thudm/cogvideo

Modèle : https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

Points clés :

🌟 La nouvelle version CogVideoX v1.5 est en open source, prenant en charge les vidéos de 5/10 secondes, une résolution de 768P et une génération de 16 images par seconde.

🎨 La nouvelle plateforme Qingying est lancée, combinée au modèle d’effets sonores CogSound, pour offrir la génération de vidéos 4K ultra-haute définition.

📈 Traitement des données et innovations algorithmiques pour garantir la qualité et la cohérence des vidéos générées.