Vous cherchez toujours un modèle d'image open source capable de comprendre le chinois ? Dites adieu aux contraintes des invites en anglais ! Le géant chinois de l'IA, Zhipu AI, vient de publier en open source son nouveau modèle de génération d'images à partir de texte, CogView4, propulsant la technologie de génération d'images en chinois à un niveau supérieur ! Désormais, les designers, les créateurs de contenu, et même les novices intéressés par l'IA générative peuvent utiliser leur langue maternelle pour maîtriser la génération d'images par IA !

QQ20250304-134226.png

Le principal atout de CogView4 est sa « compréhension exceptionnelle » du chinois ! Plus besoin de traduire péniblement vos invites en anglais : utilisez directement des instructions en chinois pour que CogView4 comprenne instantanément votre intention et génère l'image souhaitée ! Encore plus impressionnant, il s'agit du premier modèle open source capable d'écrire directement des caractères chinois sur l'image ! C'est un véritable outil magique pour les utilisateurs chinois, permettant une expression créative authentique, sans souci de problèmes de compatibilité des caractères !

Mieux encore, CogView4 supprime complètement les limitations de taille d'image et de longueur d'invite ! Vous souhaitez générer une affiche grand écran ? Pas de problème ! Vous voulez une description longue et détaillée d'une scène complexe ? N'hésitez pas ! CogView4 gère tout avec aisance, répondant à tous vos besoins créatifs, libérant votre imagination de toutes contraintes !

CogView4 n'est pas qu'une simple façade ; il a remporté haut la main le test de référence DPG-Bench, obtenant le meilleur score global. Cela démontre la puissance de CogView4, non seulement facile à utiliser, mais aussi performant, offrant une qualité d'image exceptionnelle pour répondre à vos exigences les plus élevées !

Pour permettre à un plus grand nombre de développeurs et d'utilisateurs de maîtriser CogView4, Zhipu AI a annoncé la publication prochaine en open source des outils de support ControlNet, ComfyUI et d'ajustement du modèle. Ils fournissent ainsi un ensemble complet d'outils ! Cela signifie que vous pouvez non seulement utiliser les puissantes fonctionnalités de CogView4, mais aussi le personnaliser en fonction de vos besoins pour créer un modèle de génération d'images plus puissant et personnalisé !

Alors, comment CogView4 a-t-il acquis ses capacités exceptionnelles ? En résumé, il a bénéficié de plusieurs améliorations techniques :

Capacité bilingue améliorée : Le « cerveau » de CogView4 a été mis à niveau avec l'encodeur GLM-4 plus puissant, capable de traiter le chinois et l'anglais. Il a également été entraîné sur un vaste ensemble de données d'images et de textes bilingues chinois-anglais, surmontant ainsi les limitations des modèles chinois précédents, permettant une véritable commutation entre le chinois et l'anglais !

Traitement du texte plus intelligent : CogView4 utilise une technique de « longueur de texte dynamique », comme un « tailleur intelligent » qui s'adapte à la longueur de l'invite, évitant le gaspillage et la redondance des solutions à longueur fixe traditionnelles, améliorant ainsi l'efficacité de 5 % à 30 %. Cela signifie que CogView4 comprend les invites plus précisément et génère des images plus rapidement !

Génération de résolution plus flexible : CogView4 utilise des technologies de pointe telles que l'« entraînement à résolution mixte » et le « codage de position de rotation bidimensionnelle », lui permettant de gérer la génération d'images de toutes tailles, des images haute définition aux images plus petites. Il utilise également un modèle de diffusion Flow-matching et une planification de bruit dynamique linéaire paramétrée pour rendre le processus de génération d'images plus fluide et contrôlable !

Processus d'entraînement plus raffiné : Le processus d'entraînement de CogView4 est extrêmement précis, passant par plusieurs étapes d'entraînement et d'alignement sur les préférences humaines. De la résolution de base à la résolution générale, puis à l'ajustement précis sur des données de haute qualité, chaque étape vise l'excellence. Il conserve également l'architecture Share-param DiT et utilise une normalisation adaptative de couche indépendante pour différents modes, rendant le modèle plus puissant et efficace !

Adresse du projet : https://github.com/THUDM/CogView4