ACE es un creador y editor integral basado en transformaciones de difusión. Puede realizar múltiples tareas de generación visual con entrenamiento conjunto a través de la entrada de unidad de condición de contexto largo (LCU) como formato unificado. ACE resuelve el problema de la falta de datos de entrenamiento mediante un método de recopilación de datos eficiente y genera instrucciones de texto precisas utilizando un modelo de lenguaje grande multi-modal. ACE presenta ventajas de rendimiento significativas en el campo de la generación visual, permitiendo la creación sencilla de sistemas de chat que responden a cualquier solicitud de creación de imágenes, evitando los engorrosos procesos normalmente utilizados por los agentes visuales.