Dans le domaine de l'art numérique par intelligence artificielle, les modèles de diffusion (Diffusion Model) sont en train de passer d'une architecture basée sur Unet à une architecture basée sur Transformer (DiT). Cependant, l'écosystème DiT reste confronté à des défis en termes de prise en charge des plugins, d'efficacité et de contrôle multi-conditionnel. Récemment, une équipe dirigée par Xiaojiu-z a lancé un framework innovant appelé EasyControl, visant à fournir aux modèles DiT une capacité de contrôle conditionnel efficace et flexible, comme si l'on ajoutait un puissant « ControlNet » aux modèles DiT.
Avantages clés d'EasyControl
EasyControl n'est pas une simple superposition de modèles, mais un framework DiT conditionnel unifié soigneusement conçu. Ses principaux avantages résident dans l'introduction d'un module LoRA d'injection de conditions léger (Condition Injection LoRA module), d'un paradigme d'apprentissage sensible à la position (Position-Aware Training Paradigm) et de la combinaison du mécanisme d'attention causale (Causal Attention) et de la technique de cache KV (KV Cache), permettant une amélioration significative des performances. Ces conceptions innovantes permettent à EasyControl d'exceller en termes de compatibilité des modèles (plug-and-play, contrôle sans perte de style), de flexibilité de génération (prise en charge de multiples résolutions, rapports hauteur/largeur et combinaisons multi-conditionnelles) et d'efficacité d'inférence.
Une capacité de contrôle puissante : au-delà de Canny et OpenPose
L'une des caractéristiques les plus remarquables d'EasyControl est sa puissante capacité de contrôle multi-conditionnel. Son code source montre qu'EasyControl prend en charge de nombreux modèles de contrôle, notamment la détection des contours Canny, les informations de profondeur, les croquis de contours HED, la restauration d'images (Inpainting), la pose humaine (similaire à OpenPose) et la segmentation sémantique (Seg).
Cela signifie que les utilisateurs peuvent guider précisément le modèle DiT pour générer des images conformes à une structure, une forme et une disposition spécifiques en entrant différents signaux de contrôle. Par exemple, grâce au contrôle Canny, l'utilisateur peut spécifier le contour de l'objet ; grâce au contrôle de la pose, il peut guider la génération d'images présentant des actions humaines spécifiques. Cette capacité de contrôle précise étend considérablement les cas d'utilisation des modèles DiT.
Une transformation époustouflante au style Ghibli
Outre le contrôle structurel de base, EasyControl présente une puissante capacité de transfert de style, notamment en ce qui concerne la transformation au style Ghibli. Selon les informations fournies, l'équipe de recherche a utilisé seulement 100 images de visages asiatiques réels et des images correspondantes de style Ghibli générées par GPT-4 pour entraîner un modèle LoRA spécialisé. Il est surprenant de constater que ce modèle, tout en transformant les portraits dans le style classique des animations Ghibli, préserve bien les caractéristiques faciales originales. Les utilisateurs peuvent télécharger une photo de portrait et utiliser les invites appropriées pour générer facilement des œuvres d'art au style manga dessiné à la main. L'équipe du projet fournit également une démonstration Gradio pour permettre aux utilisateurs de tester cette fonctionnalité en ligne.
L'équipe du projet EasyControl a déjà publié le code d'inférence et les poids pré-entraînés. Selon sa liste de tâches (Todo List), les poids pré-entraînés spatiaux, les poids pré-entraînés des sujets et le code d'entraînement seront prochainement disponibles, ce qui permettra d'améliorer encore les fonctionnalités d'EasyControl et de fournir aux chercheurs et aux développeurs des outils plus complets.
L'arrivée d'EasyControl a indéniablement injecté une puissante capacité de contrôle aux modèles de diffusion basés sur Transformer, compensant efficacement les lacunes des modèles DiT en matière de contrôle conditionnel. Sa prise en charge de plusieurs modes de contrôle et sa capacité impressionnante de transformation au style Ghibli laissent présager un vaste potentiel d'applications dans le domaine de la génération de contenu IA. Grâce à son efficacité, sa flexibilité et sa facilité d'utilisation, EasyControl devrait devenir un élément important de l'écosystème des modèles DiT.
Accès au projet : https://top.aibase.com/tool/easycontrol