PIXART-Σは、4K解像度の画像を直接生成する拡散トランスフォーマーモデルです。前身であるPixArt-αと比較して、より高い画像忠実度とテキストプロンプトとの優れた整合性を提供します。PIXART-Σの重要な特徴には、効率的なトレーニングプロセスが含まれます。これは、より高品質なデータを使用することで、「弱い」ベースラインモデルから「より強力な」モデルへと進化させる「弱から強へのトレーニング」と呼ばれるプロセスです。PIXART-Σの改良には、より高品質なトレーニングデータの使用と効率的なトークン圧縮が含まれます。