DynamicControlは、テキストから画像への拡散モデルの制御力を向上させるためのフレームワークです。多様な制御信号を動的に組み合わせることで、様々な数と種類の条件を適応的に選択し、より信頼性が高く詳細な画像合成を可能にします。このフレームワークはまず、事前学習済みの条件生成モデルと識別モデルを用いた二重ループコントローラーを使用して、すべての入力条件に対する初期の真偽スコア順序を生成します。次に、多様なモダリティを持つ大規模言語モデル(MLLM)を用いて効率的な条件評価器を構築し、条件の順序を最適化します。DynamicControlはMLLMと拡散モデルを統合的に最適化し、MLLMの推論能力を活用して多条件テキストから画像へのタスクを促進し、最終的に順位付けされた条件を入力として並列マルチコントロールアダプターに渡し、動的な視覚条件の特徴マップを学習し、それらを統合してControlNetを調整することで、生成画像の制御を強化します。