DynamicControl
Selección adaptativa de condiciones, mejora el control de la generación de imágenes a partir de texto
Producto ComúnImagenTexto a imagenModelo de difusión
DynamicControl es un marco diseñado para mejorar el control de los modelos de difusión de texto a imagen. Mediante la combinación dinámica de diversas señales de control, admite la selección adaptativa de diferentes cantidades y tipos de condiciones para sintetizar imágenes de forma más fiable y detallada. El marco utiliza primero un controlador de doble bucle que, utilizando modelos de generación y discriminación preentrenados, genera una clasificación inicial de las puntuaciones de verdad para todas las condiciones de entrada. Luego, se construye un evaluador de condiciones eficiente basado en un modelo de lenguaje multimodal de gran tamaño (MLLM) para optimizar la clasificación de las condiciones. DynamicControl optimiza conjuntamente el MLLM y el modelo de difusión, utilizando la capacidad de razonamiento del MLLM para facilitar las tareas de texto a imagen con múltiples condiciones. Finalmente, las condiciones clasificadas se introducen en un adaptador de control paralelo múltiple que aprende los mapas de características de las condiciones visuales dinámicas y los integra para ajustar ControlNet, mejorando así el control sobre la imagen generada.