CogView4, le dernier modèle d'IA texte-vers-image open source de Zhihu, fait son apparition. Avec ses 600 millions de paramètres, CogView4 prend entièrement en charge l'entrée en chinois et la génération d'images à partir de texte chinois, étant qualifié de « premier modèle open source capable de générer des caractères chinois dans une image ».
CogView4 se distingue par sa prise en charge des invites bilingues chinois-anglais, excellant particulièrement dans la compréhension et le respect des instructions complexes en chinois, une aubaine pour les créateurs de contenu chinois. En tant que premier modèle open source capable de générer des caractères chinois dans les images, il comble une lacune importante dans le domaine de l'open source. De plus, ce modèle prend en charge la génération d'images de dimensions arbitraires et peut traiter des invites de longueur quelconque, démontrant une grande flexibilité.
Les capacités bilingues de CogView4 résultent d'une mise à niveau complète de son architecture technique. Son encodeur de texte a été mis à niveau vers GLM-4, prenant en charge l'entrée bilingue chinois-anglais, brisant ainsi la limite des modèles open source précédents qui ne prenaient en charge que l'anglais. On sait que ce modèle a été entraîné sur des paires d'images et de textes bilingues chinois-anglais, garantissant ainsi la qualité de sa génération dans le contexte chinois.
En matière de traitement de texte, CogView4 abandonne la conception de longueur fixe traditionnelle et adopte une solution de longueur de texte dynamique. Lorsque la longueur moyenne du texte descriptif est de 200 à 300 jetons, par rapport à la solution traditionnelle à 512 jetons fixes, la redondance est réduite d'environ 50 %, et l'efficacité de l'entraînement est améliorée de 5 à 30 %. Cette innovation optimise non seulement les ressources de calcul, mais permet également au modèle de traiter plus efficacement les invites de longueur variable.
CogView4 prend en charge la génération d'images à n'importe quelle résolution, grâce à plusieurs avancées technologiques. Le modèle utilise un entraînement à résolution mixte, combinant l'encodage de position de rotation bidimensionnelle et la représentation de position interpolée, pour s'adapter aux besoins de différentes tailles. De plus, son modèle de diffusion basé sur l'appariement de flux et la planification de bruit dynamique linéaire paramétrée améliorent encore la qualité et la diversité des images générées.
Le processus d'entraînement de CogView4 se déroule en plusieurs étapes : de l'entraînement à la résolution de base à l'adaptation à la résolution générique, puis à l'ajustement fin des données de haute qualité, enfin, l'optimisation de la sortie par alignement des préférences humaines. Ce processus conserve l'architecture Share-param DiT, tout en introduisant des couches de normalisation adaptative indépendantes pour les différents modes, garantissant ainsi la stabilité et la cohérence du modèle dans diverses tâches.
Projet : https://github.com/THUDM/CogView4