O modelo Stable Diffusion 3 foi lançado, adotando a mesma arquitetura DiT do Sora, com melhorias significativas na qualidade. Os autores afirmam que o Stable Diffusion 3 supera outros sistemas de geração de imagem a partir de texto, com quantidades de parâmetros variando de 800M a 8B. A arquitetura do SD3 é baseada em uma colaboração entre membros centrais da equipe de desenvolvimento do Sora e um professor assistente da Universidade de Nova York, utilizando a arquitetura MMDiT, que supera UViT e DiT. O Stable Diffusion 3 emprega a fórmula Rectified Flow (RF), e uma variante de RF repesada, proposta pelos autores, demonstra melhoria contínua de desempenho. Estudos extensivos foram conduzidos no modelo, utilizando um codificador de texto flexível para aprimoramentos, e comparações de desempenho com outros modelos foram realizadas.