DynamicControl
Sélection adaptative des conditions, amélioration du contrôle de la génération d'images à partir de texte
Produit OrdinaireImageTexte vers imageModèle de diffusion
DynamicControl est un framework conçu pour améliorer le contrôle des modèles de diffusion texte-vers-image. Il permet de combiner dynamiquement divers signaux de contrôle, supportant la sélection adaptative de conditions en nombre et en type variés, afin de synthétiser des images de manière plus fiable et détaillée. Ce framework utilise d'abord un contrôleur à double boucle, utilisant des modèles de génération et de discrimination pré-entraînés pour générer un classement initial des scores de véracité pour toutes les conditions d'entrée. Ensuite, un évaluateur de conditions efficace est construit à partir d'un grand modèle linguistique multi-modal (MLLM) pour optimiser le classement des conditions. DynamicControl optimise conjointement le MLLM et le modèle de diffusion, utilisant les capacités d'inférence du MLLM pour faciliter les tâches texte-vers-image multi-conditions. Finalement, les conditions classées sont entrées dans un adaptateur multi-contrôle parallèle qui apprend les cartes de caractéristiques des conditions visuelles dynamiques et les intègre pour ajuster ControlNet, améliorant ainsi le contrôle sur l'image générée.