SDXS est un nouveau modèle de diffusion qui réduit considérablement la latence grâce à la miniaturisation du modèle et à la diminution du nombre d'étapes d'échantillonnage. Il utilise la distillation de connaissances pour simplifier l'architecture U-Net et du décodeur d'image, et introduit une technique innovante d'entraînement DM en une seule étape, utilisant la correspondance de caractéristiques et la distillation de scores. Les modèles SDXS-512 et SDXS-1024 peuvent atteindre des vitesses d'inférence d'environ 100 FPS et 30 FPS respectivement sur un seul GPU, soit 30 à 60 fois plus vite que les modèles précédents. De plus, cette méthode d'entraînement présente des applications potentielles en matière de contrôle conditionnel d'image, permettant une traduction image à image efficace.