Stable Diffusion 3 模型发布,采用了与 Sora 相同的 DiT 架构,质量有显著改进。作者表示,Stable Diffusion 3 优于其他文本到图像生成系统,参数量从 800M 到 8B 不等。SD3 架构基于 Sora 核心研发成员和纽约大学助理教授合作,使用 MMDiT 架构优于 UViT 和 DiT。Stable Diffusion 3 采用 Rectified Flow(RF)公式,作者提出的重新加权 RF 变体性能持续提高。模型进行了扩展研究,利用灵活的文本编码器进行改进,与其他模型进行了性能比较。
Stable Diffusion 3模型发布,架构细节大揭秘,对复现Sora有帮助?

机器之心
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。