Récemment, Zhihu AI a rendu publique sa dernière création, CogView3 et sa version améliorée CogView-3Plus-3B, insufflant une nouvelle dynamique au domaine de la génération d'images à partir de texte.

L'arrivée de CogView3 marque sans aucun doute une étape importante. Premier modèle à implémenter la diffusion par relais dans le domaine de la génération d'images à partir de texte, il utilise une méthode de diffusion en cascade unique. Cette approche innovante génère d'abord une image basse résolution, puis utilise une technique de sur-résolution basée sur le relais pour obtenir le résultat final. Cela améliore considérablement la qualité des images générées et réduit significativement les coûts de formation et d'inférence.

image.png

Le plus remarquable est la performance de CogView3. Selon les évaluations humaines, CogView3 surpasse SDXL, le modèle open source de pointe actuel pour la génération d'images à partir de texte, avec un taux de réussite de 77,0 %. Plus impressionnant encore, il a atteint ce résultat en utilisant environ la moitié du temps d'inférence de SDXL. En utilisant la version allégée de CogView3, il est possible de maintenir des performances comparables en ne consommant qu'un dixième du temps d'inférence de SDXL. Cette avancée révolutionnaire ouvre de nouvelles perspectives pour la génération d'images de haute qualité et à haute efficacité.

Parallèlement, Zhihu AI a lancé CogView-3Plus-3B, un modèle d'image basé sur le framework DiT (Diffusion Transformers). Bien que les résultats de test spécifiques n'aient pas encore été publiés, le secteur attend avec impatience son potentiel. CogView-3Plus-3B est une amélioration de CogView3, intégrant des technologies de pointe telles que la planification du bruit de diffusion Zero-SNR et un mécanisme d'attention conjoint texte-image. Ces améliorations réduisent non seulement les coûts de formation et d'inférence, mais maintiennent également une capacité de génération d'images puissante.

Il est à noter que CogView-3Plus-3B prend en charge une large gamme de résolutions d'images, de 512x512 à 2048x2048, ce qui augmente considérablement la flexibilité de ses applications. Que ce soit pour un usage quotidien ou une création professionnelle, il existe une option de résolution appropriée.

Pour aider les utilisateurs à mieux exploiter ces modèles, Zhihu AI fournit des conseils et des outils pratiques. Il est conseillé aux utilisateurs d'optimiser les invites à l'aide de grands modèles linguistiques (LLM), ce qui peut améliorer considérablement la qualité des images générées. Zhihu AI fournit également des scripts d'exemple, ce qui simplifie considérablement l'utilisation pour les utilisateurs.

Adresse du projet : https://github.com/THUDM/CogView3