DynamicControl
Adaptive Bedingungsselektion zur Verbesserung der Steuerung bei der Text-zu-Bild-Generierung
Normales ProduktBildText-zu-BildDiffusionsmodell
DynamicControl ist ein Framework zur Verbesserung der Steuerung von Text-zu-Bild-Diffusionsmodellen. Durch die dynamische Kombination verschiedener Steuersignale unterstützt es die adaptive Auswahl einer unterschiedlichen Anzahl und Art von Bedingungen, um Bilder zuverlässiger und detaillierter zu synthetisieren. Das Framework verwendet zunächst einen Doppelring-Controller, der mithilfe vorab trainierter bedingter Generierungs- und Diskriminierungsmodelle eine anfängliche Rangfolge der Realitätswerte für alle Eingabebedingungen erstellt. Anschließend wird mithilfe eines multimodalen Large Language Models (MLLM) ein effizienter Bedingungsbewerter aufgebaut, um die Bedingungsrangfolge zu optimieren. DynamicControl optimiert das MLLM und das Diffusionsmodell gemeinsam und nutzt die Inferenzfähigkeit des MLLM, um Multi-Bedingungs-Text-zu-Bild-Aufgaben zu fördern. Die letztendlich sortierten Bedingungen werden an einen parallelen Multi-Control-Adapter übergeben, der die Merkmalskarten dynamischer visueller Bedingungen lernt und diese integriert, um ControlNet zu regulieren und die Steuerung des generierten Bildes zu verbessern.