Le 4 mars 2025, la société chinoise Beijing Zhipu Huazhang Technology Co., Ltd. a annoncé le lancement de CogView4, son premier modèle open source de génération d'images à partir de texte capable de générer des caractères chinois. Ce modèle s'est classé premier au classement général du benchmark DPG-Bench, devenant ainsi le meilleur modèle open source de génération d'images (SOTA), et est le premier modèle de génération d'images à suivre la licence Apache2.0.
CogView4 possède de puissantes capacités d'alignement sémantique complexe et de suivi d'instructions. Il prend en charge les entrées bilingues chinois-anglais de longueur arbitraire et peut générer des images de résolution quelconque. Il est capable non seulement de générer des images de haute qualité, mais aussi d'intégrer naturellement des caractères chinois dans l'image, répondant ainsi aux besoins créatifs des secteurs de la publicité et des courtes vidéos. Techniquement, CogView4 utilise le GLM-4encoder, un encodeur bilingue, entraîné sur des données textuelles et visuelles bilingues chinois-anglais, ce qui lui permet de gérer les invites bilingues.
Le modèle prend également en charge les invites de longueur arbitraire et peut générer des images de résolution quelconque, augmentant considérablement la liberté de création et l'efficacité de l'entraînement. CogView4 utilise l'encodage de position rotationnel bidimensionnel (2D RoPE) pour modéliser les informations de position des images et utilise l'interpolation de l'encodage de position pour prendre en charge la génération d'images de différentes résolutions. De plus, le modèle utilise une approche de « Flow-matching » pour la modélisation de la génération par diffusion, combinée à une planification de bruit dynamique linéaire paramétrée, afin de s'adapter aux besoins de rapport signal/bruit des images de différentes résolutions.
En termes d'architecture, CogView4 reprend l'architecture Share-param DiT de la génération précédente et utilise des couches LayerNorm adaptatives indépendantes pour les modalités texte et image afin d'assurer une adaptation efficace entre les modalités. Le modèle utilise une stratégie d'entraînement en plusieurs étapes, comprenant l'entraînement à résolution de base, l'entraînement à résolution générique, le réglage fin sur des données de haute qualité et l'alignement des préférences humaines, afin de garantir que les images générées sont esthétiques et correspondent aux préférences humaines.
CogView4 surmonte également la limitation traditionnelle de la longueur fixe des jetons, permettant une limite supérieure plus élevée de jetons et réduisant considérablement la redondance des jetons de texte pendant l'entraînement. Lorsque la longueur moyenne de la légende d'entraînement est de 200 à 300 jetons, CogView4 réduit la redondance des jetons d'environ 50 % par rapport à la méthode traditionnelle à 512 jetons fixes, et améliore l'efficacité de 5 % à 30 % lors des phases d'entraînement progressif du modèle.
De plus, CogView4 est compatible avec la licence Apache2.0, et le support de ControlNet, ComfyUI et d'autres écosystèmes sera ajouté progressivement. Une suite complète d'outils de réglage fin sera également bientôt disponible.
Adresse du dépôt open source :
https://github.com/THUDM/CogView4
Dépôt du modèle :
https://huggingface.co/THUDM/CogView4-6B
https://modelscope.cn/models/ZhipuAI/CogView4-6B