Stability AI hat kürzlich sein neuestes Deep-Learning-Text-zu-Bild-Generierungsmodell, Stable Diffusion 3.5, vorgestellt. Diese Version umfasst drei verbesserte Open-Source-Modelle, die auf die Bedürfnisse verschiedener Benutzer zugeschnitten sind, darunter Forscher, Unternehmenskunden und Hobbyisten.

image.png

Stable Diffusion 3.5 Large ist das leistungsstärkste Modell der gesamten Reihe mit satten 8,1 Milliarden Parametern. Das Modell zeichnet sich durch seine hervorragende Bildqualität und seine hohe Reaktionsfähigkeit auf Eingabeaufforderungen aus und ist somit die ideale Wahl für professionelle Anwender. Es kann hochwertige Bilder mit einer Auflösung von bis zu 1 Megapixel erzeugen.

Darüber hinaus ist Stable Diffusion 3.5 Large Turbo eine vereinfachte Version von Stable Diffusion 3.5 Large. Es generiert hochwertige Bilder bei deutlich erhöhter Geschwindigkeit und benötigt nur 4 Schritte zur Bildgenerierung. Im Vergleich zur Vorgängerversion ist es effizienter und eignet sich für Benutzer, die schnell arbeiten müssen.

Ein weiteres neues Modell ist Stable Diffusion 3.5 Medium mit 2,5 Milliarden Parametern. Dieses Modell verwendet die verbesserte MMDiT-X-Architektur und Trainingsmethoden und ist „out-of-the-box“ einsatzbereit, sodass es auch auf Consumer-Hardware reibungslos läuft. Es bietet eine gute Balance zwischen Bildqualität und einfacher Anpassbarkeit und kann Bilder mit einer Auflösung von 0,25 bis 2 Megapixel erzeugen.

Der Hintergrund dieser Veröffentlichung ist, dass Stability AI nach der Veröffentlichung von Stable Diffusion 3 Medium im Juni, das die Erwartungen nicht erfüllte, eine revolutionärere Lösung auf den Markt bringen wollte. Das Unternehmen gab an, mit diesem Update seine Wettbewerbsfähigkeit zurückgewinnen zu wollen, um den Herausforderungen durch Plattformen wie OpenAIs DALL-E und Midjourney zu begegnen.

Eine wichtige technische Innovation der neuen Modelle ist die Einführung der Query-Key-Normalisierung. Diese Innovation verbessert die Anpassbarkeit und die Reaktionsfähigkeit des Modells auf Eingabeaufforderungen. Benutzer erhalten durch präzise Aufforderungen konsistentere Ergebnisse und auch bei allgemeineren Aufforderungen reichhaltigere Bildinterpretationen.

Die Modelle der Stable Diffusion 3.5-Serie werden unter der Community-Lizenz von Stability AI veröffentlicht, die eine kostenlose nicht-kommerzielle Nutzung erlaubt. Unternehmen mit einem Jahresumsatz von unter 1 Million US-Dollar können die Modelle ebenfalls kostenlos kommerziell nutzen. Benutzer mit einem höheren Umsatz benötigen eine Unternehmenslizenz.

Alle Modelle und die für das Selbst-Hosting benötigten Gewichte werden auf Hugging Face und der Stability AI API bereitgestellt. Darüber hinaus wird in den nächsten Tagen voraussichtlich die ControlNets-Funktion mit erweiterten Optionen zur Bildanpassung eingeführt.

Offizielle Webseite:

https://stability.ai/stable-image

Hugging Face Links der drei Versionen:

https://huggingface.co/stabilityai/stable-diffusion-3.5-large

https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo

https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

Wichtigste Punkte:

🌟 Die neue Stable Diffusion 3.5 bietet drei Modellvarianten für unterschiedliche Benutzeranforderungen.

⚡ Stable Diffusion 3.5 Large Turbo bietet eine schnellere Bildgenerierung für schnelles Arbeiten.

📈 Die neuen Modelle nutzen die Query-Key-Normalisierung für verbesserte Anpassbarkeit und Reaktionsfähigkeit.