O relatório técnico do Stable Diffusion 3 (SD3) detalha a arquitetura Transformer multi-modal de difusão (MMDiT) usada pelo SD3, melhorando o desempenho através do uso de dois conjuntos separados de pesos para representações de imagem e texto. O relatório também revela que o SD3 introduziu a técnica de fluxo de ponderação reajustada e conduziu um estudo em larga escala para perspectivas de melhoria de desempenho futuro. Além disso, o relatório menciona problemas e sugestões para o codificador de texto. Em geral, as inovações técnicas e o desempenho do SD3 são impressionantes.