Stability AI vient de lancer son dernier modèle de génération d'images à partir de texte en apprentissage profond : Stable Diffusion 3.5. Cette version comprend trois modèles open source améliorés, conçus pour répondre aux besoins d'utilisateurs variés, notamment les chercheurs, les entreprises et les amateurs.
Stable Diffusion 3.5 Large est le modèle le plus puissant de la série, avec 8,1 milliards de paramètres. Grâce à sa qualité d'image exceptionnelle et à sa grande réactivité aux invites, il est idéal pour les utilisateurs professionnels et permet de générer des images haute résolution atteignant 1 mégapixel.
Stable Diffusion 3.5 Large Turbo est une version simplifiée de Stable Diffusion 3.5 Large. Il génère des images de haute qualité tout en augmentant considérablement la vitesse ; la génération d'image ne nécessite que 4 étapes, ce qui le rend beaucoup plus efficace que la version précédente et convient aux utilisateurs qui ont besoin de créer rapidement.
Le troisième modèle, Stable Diffusion 3.5 Medium, compte 2,5 milliards de paramètres. Il utilise l'architecture et la méthode d'entraînement MMDiT-X améliorées et est conçu pour être « prêt à l'emploi », fonctionnant même sur du matériel grand public. Il offre un bon équilibre entre la qualité de génération d'images et la facilité de personnalisation, permettant de générer des images de 0,25 à 2 mégapixels.
Ce lancement fait suite à la version Stable Diffusion 3 Medium de juin, qui n'a pas répondu aux attentes. Stability AI a donc décidé de proposer une solution plus révolutionnaire. L'entreprise souhaite ainsi reconquérir sa compétitivité face à des plateformes comme DALL-E d'OpenAI et Midjourney.
Une innovation technologique majeure de ces nouveaux modèles est l'introduction de la normalisation requête-clé (Query-Key Normalization). Cette innovation améliore la personnalisation et la réactivité aux invites, permettant aux utilisateurs d'obtenir des résultats plus cohérents avec des invites précises, tout en bénéficiant d'interprétations d'images plus riches avec des invites plus larges.
Les modèles de la série Stable Diffusion 3.5 seront publiés sous la licence communautaire de Stability AI, permettant une utilisation gratuite à des fins non commerciales. Les entités dont le chiffre d'affaires annuel est inférieur à 1 million de dollars peuvent également l'utiliser gratuitement à des fins commerciales, tandis que les utilisateurs dépassant ce seuil devront demander une licence d'entreprise.
Tous les modèles et les poids nécessaires à l'auto-hébergement seront disponibles sur Hugging Face et l'API de Stability AI. De plus, la fonctionnalité ControlNets, offrant des options de personnalisation d'image avancées, devrait être disponible dans les prochains jours.
Lien officiel :
https://stability.ai/stable-image
Liens Hugging Face des trois versions :
https://huggingface.co/stabilityai/stable-diffusion-3.5-large
https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo
https://huggingface.co/stabilityai/stable-diffusion-3.5-medium
Points clés :
🌟 Stable Diffusion 3.5 propose trois versions de modèles pour répondre aux différents besoins des utilisateurs.
⚡ Stable Diffusion 3.5 Large Turbo offre une vitesse de génération d'images plus rapide, idéale pour une création rapide.
📈 Les nouveaux modèles intègrent la normalisation requête-clé, améliorant ainsi la personnalisation et la réactivité.