Stable Diffusion 3.5 Large ist ein multimodales Diffusions-Transformationsmodell (MMDiT) zur Text-zu-Bild-Generierung, entwickelt von Stability AI. Das Modell zeigt signifikante Verbesserungen in Bezug auf Bildqualität, Layout, Verständnis komplexer Eingabeaufforderungen und Ressourceneffizienz. Es verwendet drei fest vorgegebene, vortrainierte Text-Encoder und verbessert die Trainingstabilität durch QK-Normalisierung. Darüber hinaus basiert das Training auf einem Datensatz, der synthetische Daten und gefilterte, öffentlich zugängliche Daten umfasst. Stable Diffusion 3.5 Large kann unter Einhaltung der Community-Lizenzvereinbarung kostenlos für Forschung, nichtkommerzielle Zwecke sowie für kommerzielle Zwecke von Organisationen oder Einzelpersonen mit einem Jahresumsatz von unter 1 Million US-Dollar genutzt werden.