Instruct-Imagen es un modelo de generación de imágenes multimodal que, mediante la introducción de instrucciones multimodales, permite el procesamiento de tareas de generación de imágenes heterogéneas y logra la generalización en tareas desconocidas. El modelo utiliza el lenguaje natural para integrar diferentes modalidades (como texto, bordes, estilo, tema, etc.), estandarizando una amplia gama de intenciones generativas. Mediante el ajuste fino de un modelo de difusión de texto a imagen preentrenado en un marco de dos etapas, empleando entrenamiento con recuperación de información y ajuste fino en diversas tareas de generación de imágenes, los resultados de la evaluación manual del modelo en varios conjuntos de datos de generación de imágenes muestran que se equipara o supera a los modelos específicos de tareas anteriores dentro del dominio, y exhibe una prometedora capacidad de generalización para tareas desconocidas y más complejas.