Stable Diffusion 3 模型发布,采用了与 Sora 相同的 DiT 架构,质量有显著改进。作者表示,Stable Diffusion 3 优于其他文本到图像生成系统,参数量从 800M 到 8B 不等。SD3 架构基于 Sora 核心研发成员和纽约大学助理教授合作,使用 MMDiT 架构优于 UViT 和 DiT。Stable Diffusion 3 采用 Rectified Flow(RF)公式,作者提出的重新加权 RF 变体性能持续提高。模型进行了扩展研究,利用灵活的文本编码器进行改进,与其他模型进行了性能比较。