Le rapport technique sur Stable Diffusion 3 (SD3) détaille l'architecture MMDiT (Multimodal Diffusion Transformer) utilisée par SD3, améliorant les performances grâce à l'utilisation de deux ensembles de poids distincts pour les représentations d'images et de texte. Le rapport révèle également l'introduction par SD3 de la technique de flux de repondération et présente une étude d'échelle pour envisager des améliorations de performances futures. De plus, le rapport mentionne les problèmes et les suggestions concernant l'encodeur de texte. Globalement, les innovations techniques et les performances de SD3 sont impressionnantes.