Stable Diffusion 3.5 Medium ist ein textbasiertes Bildgenerierungsmodell von Stability AI mit verbesserter Bildqualität, Layout, Verständnis komplexer Prompts und Ressourceneffizienz. Das Modell verwendet drei feste vortrainierte Text-Encoder, erhöht die Trainingstabilität durch QK-Normierung und implementiert in den ersten 12 Transformationsschichten duale Aufmerksamkeitsblöcke. Es zeichnet sich durch hervorragende Leistung in der Mehrfachauflösungsbildgenerierung, Konsistenz und Anpassungsfähigkeit an verschiedene Text-zu-Bild-Aufgaben aus.