El informe técnico de Stable Diffusion 3 (SD3) describe detalladamente la arquitectura de transformador de difusión multimodal MMDiT utilizada en SD3, mejorando el rendimiento mediante el uso de dos conjuntos separados de pesos para las representaciones de imagen y texto. El informe también revela que SD3 introdujo la técnica de flujo de reponderación y realizó un estudio de escalabilidad para prever futuras mejoras de rendimiento. Además, el informe menciona los problemas y sugerencias relacionados con el codificador de texto. En general, las innovaciones técnicas y el rendimiento de SD3 han causado una profunda impresión.