CSGO es un modelo de generación de imágenes a partir de texto basado en la síntesis de estilo de contenido. Genera y limpia automáticamente tríadas de datos estilizados a través de un pipeline de construcción de datos, creando IMAGStyle, el primer conjunto de datos a gran escala para la transferencia de estilos, que contiene 210 000 tríadas de imágenes. El modelo CSGO emplea un entrenamiento de extremo a extremo, desacoplando explícitamente las características de contenido y estilo mediante la inyección de características independientes. Implementa la transferencia de estilo impulsada por imágenes, la síntesis de estilo impulsada por texto y la síntesis de estilo impulsada por edición de texto, con las ventajas de no requerir ajuste fino para la inferencia, mantener la capacidad de generación del modelo original de imagen a partir de texto y unificar la transferencia y la síntesis de estilo.