L'équipe technique de Zhipu a annoncé aujourd'hui une nouvelle passionnante : ses derniers modèles de génération d'images à partir de texte, CogView3 et sa version améliorée CogView3-Plus-3B, sont désormais open source et disponibles sur l'application « Zhipu Qingyan ». L'arrivée de ces deux modèles marque une nouvelle étape dans la création artistique assistée par l'IA.
CogView3, un modèle texte-image basé sur la diffusion en cascade, possède un processus de génération remarquable. Le modèle génère d'abord une image basse résolution de 512x512 pixels, puis l'améliore à 1024x1024 via un processus de diffusion intermédiaire, avant une dernière itération pour aboutir à une image haute définition de 2048x2048. Cette génération progressive, comparable à un peintre numérique peaufinant son œuvre sur la toile, offre une expérience visuelle exceptionnelle.
Selon les évaluations officielles, les performances de CogView3 sont étonnantes, surpassant même SDXL, l'un des meilleurs modèles open source actuels, de 77 %. Plus impressionnant encore, la vitesse d'inférence de CogView3 est dix fois plus rapide que celle de SDXL, témoignant de l'excellence de l'équipe Zhipu en matière d'optimisation des modèles.
CogView3-Plus repousse encore les limites de cette technologie. Cette version intègre le cadre DiT avancé, utilise la planification du bruit de diffusion Zero-SNR et introduit un mécanisme innovant d'attention conjointe texte-image. Ces améliorations non seulement augmentent les performances globales du modèle, mais réduisent également considérablement les coûts de formation et d'inférence, atteignant un équilibre parfait entre efficacité et performance. L'espace latent VAE 16D utilisé par CogView3-Plus ouvre de nouvelles perspectives pour le futur de la génération d'images.
L'équipe technique de Zhipu a mis à disposition des développeurs et chercheurs le code source de CogView3 et CogView3-Plus-3B. Cette initiative stimulera sans aucun doute le développement rapide du domaine de la génération d'images par IA et fournira une base technologique solide pour de nouvelles applications innovantes.
Avec l'arrivée des modèles CogView3, les perspectives d'application de la technologie de génération d'images à partir de texte sont vastes. De la création personnelle à la conception commerciale, de l'éducation au divertissement, cette technologie devrait révolutionner de nombreux secteurs. On peut prévoir que, dans un avenir proche, la création assistée par l'IA deviendra la norme, permettant à un plus grand nombre de personnes de réaliser facilement leurs idées artistiques.
Adresse du dépôt open source :
https://top.aibase.com/tool/cogview3
Dépôt open source de Plus :