Hier soir, Stability AI a lancé son modèle le plus puissant à ce jour : Stable Diffusion 3.5. Il ne s’agit pas d’un simple modèle, mais d’une suite complète de trois versions conçues pour répondre aux besoins variés des chercheurs, des amateurs, des startups et des entreprises.
Ces trois versions sont : Stable Diffusion 3.5 Large, Stable Diffusion 3.5 Large Turbo et Stable Diffusion 3.5 Medium, dont la sortie est prévue pour le 29 octobre.
Stable Diffusion 3.5 Large est un modèle de base de 8 milliards de paramètres, réputé pour son excellente qualité d’image et la précision de ses invites. Idéal pour un usage professionnel, il permet de générer des images jusqu’à 1 million de pixels de résolution.
Stable Diffusion 3.5 Large Turbo est une version distillée du précédent. Il génère des images de haute qualité en seulement 4 étapes, beaucoup plus rapidement que Stable Diffusion 3.5 Large.
Stable Diffusion 3.5 Medium, quant à lui, possède 2,5 milliards de paramètres. Il utilise l’architecture et les méthodes d’entraînement améliorées MMDiT-X. Conçu pour une utilisation immédiate, il fonctionne directement sur du matériel grand public, offrant un équilibre entre qualité d’image et personnalisation. Il génère des images d’une résolution comprise entre 0,25 et 2 millions de pixels.
La personnalisation a été une priorité dans le développement de ces modèles. L’intégration de la normalisation Query-Key dans les blocs transformateurs a stabilisé le processus d’entraînement et simplifié les ajustements et le développement ultérieurs. Pour favoriser la flexibilité des tâches en aval, Stability AI a conservé une base de connaissances plus large et des styles diversifiés dans les modèles, même si cela peut entraîner une augmentation de l’incertitude des résultats.
Les modèles Stable Diffusion 3.5 excellent à plusieurs niveaux : personnalisation, performances efficaces et diversité des sorties. Ils peuvent être facilement affinés pour répondre à des besoins de création spécifiques ou pour construire des applications basées sur des workflows personnalisés. Optimisés pour fonctionner sur du matériel grand public standard, ils ne nécessitent pas de configuration matérielle excessive. De plus, ils sont capables de créer des images représentant le monde entier, sans nécessiter d’invites complexes, et peuvent générer des images dans une variété de styles et d’esthétiques, tels que 3D, photographie, peinture, art linéaire et pratiquement tous les styles visuels imaginables.
Stability AI souligne également son engagement envers la sécurité, ayant pris des mesures raisonnables pour prévenir toute utilisation abusive de Stable Diffusion 3.5 et en ayant privilégié l’intégrité dès les premières phases de développement. De plus, la licence communautaire Stability AI est très permissive, autorisant l’utilisation gratuite du modèle à des fins non commerciales, y compris la recherche scientifique, par les particuliers et les organisations. Les startups, les PME et les créateurs dont les revenus annuels ne dépassent pas 1 million de dollars peuvent également l’utiliser gratuitement à des fins commerciales. La propriété des médias générés est conservée sans être soumise à des restrictions de licence.
Les modèles Stable Diffusion 3.5 sont disponibles en auto-hébergement sur Hugging Face, et le code d’inférence est open source. L’accès au modèle est également possible via les plateformes Stability AI API, Replicate, ComfyUI et DeepInfra.
Adresse d’essai : https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large