Dans le contexte de l'essor de l'IA, le modèle de génération d'images à partir de texte de Kuaishou, Kolors, est devenu une étoile montante des technologies IA chinoises grâce à ses performances exceptionnelles et son esprit open source. Kolors surpasse non seulement les modèles open source existants en termes de qualité de génération d'images, mais atteint également un niveau comparable aux modèles commerciaux propriétaires, suscitant rapidement des discussions animées sur les médias sociaux.
Le cheminement open source de Kolors
L'open source de Kolors n'est pas seulement une étape importante sur le plan technique, mais aussi une démonstration de l'ouverture de Kuaishou envers les technologies IA. Lors de la Conférence mondiale sur l'intelligence artificielle, Kuaishou a annoncé la mise en open source officielle de Kolors, fournissant des ressources complètes, notamment les poids du modèle, le code complet et des rapports techniques. Il est désormais disponible sur les plateformes Hugging Face et GitHub, à l'usage gratuit des développeurs du monde entier.
La page GitHub indique également le plan open source : l’interface et le grand modèle sont déjà open source, et les Lora, ControlNet, etc. de Kolors seront mis en open source ultérieurement, ce qui suscite de grandes attentes.
Les performances exceptionnelles de Kolors
Kolors a reçu les éloges des développeurs et des utilisateurs grâce à sa puissante capacité de compréhension des sémantiques complexes et à la qualité photographique de ses images. Dans l'évaluation des modèles de génération d'images à partir de texte FlagEval de ZHIYUAN, Kolors s'est classé deuxième au monde avec un score global subjectif de 75,23, affichant des performances particulièrement remarquables en termes de qualité d'image, avec un score classé premier.
L'innovation technologique de Kolors
Kolors utilise un modèle de diffusion d'espace latent et combine un grand modèle linguistique pour la représentation textuelle, lui permettant de comprendre des textes longs et complexes. Grâce à une stratégie d'entraînement progressif en deux étapes, Kolors a atteint un niveau internationalement avancé en termes d'esthétique et de qualité d'image. De plus, Kolors est le premier modèle de génération d'images à partir de texte prenant en charge nativement la génération de texte chinois, démontrant ainsi ses avantages en termes de compréhension et de représentation des éléments caractéristiques de la Chine.
Déploiement de Kolors avec ComfyUI
Après toutes ces présentations, vous êtes certainement impatient d’essayer. Voici comment déployer Kolors localement.
Un déploiement en un clic de Kolors est disponible sur GitHub.
Page d'accueil GitHub : https://github.com/kijai/ComfyUI-KwaiKolorsWrapper
Page d'accueil Hugging Face : https://huggingface.co/Kwai-Kolors/Kolors
Commencez par copier l'URL du projet.
Ensuite, installez-le via le gestionnaire ComfyUI, puis redémarrez.
Créez ensuite un workflow de génération d'images à partir de texte Kolors simple.
Une fois créé, cliquez sur « Ajouter une file d'attente d'invites » pour télécharger automatiquement le grand modèle et l'encodeur de texte nécessaires.
⚠️Remarque : comme les modèles sont téléchargés depuis Hugging Face, le grand modèle fait environ 5 Go et l'encodeur de texte environ 11 Go. Utilisez donc un VPN pour garantir une connexion réseau stable.
Enfin, le modèle sera téléchargé dans le chemin de fichier suivant :
Résolution des erreurs d'installation
Lors de la première utilisation, vous pouvez rencontrer une erreur indiquant que l'encodeur de texte ne trouve pas le fichier.
La solution est simple : accédez à l'adresse du projet Hugging Face, téléchargez tous les fichiers JSON et Python dans le dossier text_encoder,
et placez-les dans votre dossier text_encoder local. Étant donné que les noms de fichiers téléchargés ne sont pas corrects, vous devrez les renommer en fonction de l'image ci-dessous.
Enfin, vous devez télécharger le modèle VAE et le placer dans le chemin de fichier indiqué ci-dessous.
Chemin de fichier VAE local
Une fois ces problèmes résolus, vous pouvez utiliser Kolors pour générer des images. L'utilisation d'invites en chinois dans notre workflow est très pratique, et la qualité des images est excellente, avec peu de problèmes au niveau des mains. Les résultats sont également excellents pour les images abstraites, sans être inférieurs à Midjourney.
L'avenir de Kolors et de la communauté open source
Alors que Stability AI traverse des moments difficiles, la mise en open source de Kolors par Kuaishou est devenue un nouveau point central de la communauté open source. Kuaishou prévoit de mettre progressivement en open source les composants d'application associés à Kolors, d'enrichir son écosystème open source et d'œuvrer avec les développeurs du monde entier pour faire progresser la communauté des grands modèles de génération d'images à partir de texte.
Conclusion
Le grand modèle Kolors de Kuaishou, avec son approche ouverte, ses technologies de haut niveau et ses applications commerciales concrètes, démontre la véritable puissance des technologies IA chinoises. Dans le contexte de l'évolution constante des technologies IA, la mise en open source et le déploiement de Kolors révèlent le potentiel illimité de la combinaison des technologies et des formes de contenu. Avec la participation croissante des entreprises et des développeurs à l'écosystème open source de Kolors, nous pouvons raisonnablement penser que cela créera de nouvelles opportunités de développement pour l'ensemble du secteur.
------------------------------------------------------------------------------------------
Les tutoriels IA de Zhanzhang Sucai sont une plateforme de tutoriels d'illustration IA de Zhanzhang Zhijia.
De nombreux tutoriels IA gratuits, avec un contenu pratique mis à jour en permanence.
Pour en savoir plus sur les tutoriels d'illustration IA, veuillez consulter le site web des tutoriels IA de Zhanzhang Sucai :