ACE est un créateur et éditeur polyvalent basé sur un transformateur de diffusion. Il permet l'entraînement conjoint de multiples tâches de génération visuelle grâce à une entrée unifiée de format conditionnel : l'Unité de Condition à Long Contexte (LCU). ACE résout le problème du manque de données d'entraînement grâce à une méthode de collecte de données efficace et génère des instructions textuelles précises à l'aide d'un grand modèle linguistique multi-modal. ACE présente des avantages de performance significatifs dans le domaine de la génération d'images, permettant de créer facilement un système de chat répondant à toute demande de création d'image, évitant ainsi les processus fastidieux généralement employés par les agents visuels.