Das Stable Diffusion 3 Modell wurde veröffentlicht und verwendet dieselbe DiT-Architektur wie Sora, mit deutlich verbesserter Qualität. Die Autoren geben an, dass Stable Diffusion 3 andere Text-zu-Bild-Generierungssysteme übertrifft. Die Modellgröße variiert zwischen 800 Millionen und 8 Milliarden Parametern. Die SD3-Architektur basiert auf einer Zusammenarbeit zwischen Kernentwicklern von Sora und einem Assistenzprofessor der New York University und verwendet die MMDiT-Architektur, die UViT und DiT überlegen ist. Stable Diffusion 3 verwendet die Rectified Flow (RF)-Formel, wobei eine von den Autoren vorgeschlagene, neu gewichtete RF-Variante zu kontinuierlichen Leistungssteigerungen führt. Das Modell wurde durch umfangreiche Forschung erweitert und durch einen flexiblen Text-Encoder verbessert. Vergleiche mit anderen Modellen wurden durchgeführt.