PIXART-Σ est un modèle de transformateur de diffusion qui génère directement des images en résolution 4K. Comparé à son prédécesseur, PixArt-α, il offre une meilleure fidélité d'image et un meilleur alignement avec les invites textuelles. Les caractéristiques clés de PIXART-Σ incluent un processus d'entraînement efficace qui, en combinant des données de meilleure qualité, permet d'évoluer d'un modèle de base « faible » vers un modèle « fort », un processus appelé « entraînement faible à fort ». Les améliorations de PIXART-Σ comprennent l'utilisation de données d'entraînement de meilleure qualité et une compression efficace des annotations.