Des recherches récentes menées par les laboratoires Tongyi d'Alibaba montrent que les modèles actuels de Diffusion Transformer texte-image possèdent déjà la capacité de générer plusieurs images ayant une relation spécifique. Une simple « impulsion » suffit à les rendre capables de générer des ensembles d'images de haute qualité.
Les modèles de diffusion traditionnels ressemblent davantage à des étudiants qui apprennent par cœur : ils nécessitent un entraînement massif pour générer des images de haute qualité.
Grâce à IC-LoRA, ils deviennent des « as » capables de faire des liens, nécessitant seulement un petit nombre d'exemples pour acquérir de nouvelles compétences.
Le principe sous-jacent est assez simple. Les chercheurs ont découvert que les modèles de diffusion texte-image actuels possèdent déjà une certaine capacité d'« apprentissage contextuel », mais qu'il faut des techniques spécifiques pour l'activer.
Ils ont mené plusieurs expériences en utilisant des modèles texte-image existants pour générer plusieurs images. Ils ont constaté que le modèle comprenait effectivement les relations entre les images et générait des ensembles d'images cohérents. Bien qu'il y ait encore quelques imperfections, les résultats sont déjà très encourageants.
Ils ont donc conçu un processus simple et efficace pour activer la capacité d'« apprentissage contextuel » des modèles de diffusion :
Assembler plusieurs images en une seule grande image, au lieu de concaténer les jetons comme auparavant. Cela permet de traiter directement les images dans le modèle de diffusion, plutôt que des jetons abstraits.
Fusionner les descriptions textuelles de chaque image en une seule invite longue. Le modèle peut ainsi traiter simultanément les informations de plusieurs images et comprendre leurs relations.
Par exemple :
Invite : « Dans cette séquence de trois images d'aventure, [IMAGE1] Ethan, un archéologue courageux à l'aspect robuste, découvre une carte ancienne sur un site de fouilles dans un désert ensoleillé. Son excitation est évidente lorsqu'il balaie le sable, [IMAGE2] transition vers une ville étrangère animée et un marché bondé où Ethan négocie avec des commerçants locaux et rassemble des fournitures pour sa mission, [IMAGE3] enfin, Ethan traverse une jungle dense et brumeuse, les arbres imposants et la faune exotique soulignant les défis et le mystère de son voyage. »
Invite : « Dans une histoire captivante de résilience, [IMAGE1] nous voyons Lena, une jeune fille déterminée, semer des graines dans des champs arides, le visage plein de résolution, [IMAGE2] transition vers elle cultivant les plantes, les arrosant chaque jour, ses efforts portant lentement leurs fruits, [IMAGE3] culminant finalement dans un jardin luxuriant et vibrant où Lena se tient fièrement parmi ses créations, symbolisant la croissance et la persévérance. »
Ajuster finement le modèle avec un petit nombre d'ensembles d'images de haute qualité, au lieu d'utiliser des centaines de milliers d'images pour un entraînement à grande échelle comme auparavant. Cela permet d'économiser des ressources de calcul tout en préservant les connaissances et la capacité d'« apprentissage contextuel » du modèle.
Le modèle IC-LoRA final est très simple. Il ne nécessite aucune modification du modèle texte-image d'origine, il suffit d'ajuster un petit nombre de données d'entraînement en fonction des tâches spécifiques.
Par exemple, si vous souhaitez que Stable Diffusion apprenne à générer des images de style bande dessinée, il suffit de former le modèle IC-LoRA avec quelques images de bande dessinée, et il pourra générer toutes les bandes dessinées que vous souhaitez, c'est incroyablement facile.
Invite : « Cette paire d'images présente une transition d'un portrait réaliste à une illustration espiègle, capturant les détails et le talent artistique ; [IMAGE1] une femme portant un chapeau à larges bords et une robe bohème fluide, tenant un sac à bandoulière en cuir, se tient dans un marché animé sur la photo ; [IMAGE2] la version illustrée exagère ses accessoires et ses traits, la robe bohème étant représentée avec des motifs vifs et des couleurs audacieuses, tandis que l'arrière-plan est simplifié en stands de marché abstraits, donnant à la scène une sensation animée et vibrante. »
Pour rendre IC-LoRA plus puissant, les chercheurs ont également ajouté une fonction de génération conditionnelle d'images. En termes simples, il s'agit de générer de nouvelles images à partir d'images existantes, par exemple, générer des images avec des expressions et des poses différentes à partir d'une photo de personne, ou générer des images avec des conditions météorologiques et des éclairages différents à partir d'une photo de paysage.
Par exemple :
Invite : « Cet ensemble de quatre images capture des moments paisibles d'une vieille femme s'occupant de son jardin. [IMAGE1] Elle est agenouillée à côté d'une plate-bande fleurie, taillant doucement un rosier avec ses mains, la douce lumière du matin éclairant ses cheveux argentés ; [IMAGE2] elle se tient devant un arrosoir, le visage calme et serein alors qu'elle cultive ses plantes ; [IMAGE3] un gros plan montre son sourire satisfait en regardant une fleur sur le point d'éclore dans sa main, la fierté et la joie sont évidentes ; [IMAGE4] elle est assise sur un petit banc, buvant du thé dans son jardin, entourée des couleurs vives de son travail acharné. »
Invite : « Cet ensemble de deux images illustre l'impact transformateur d'une tempête de sable sur une scène sportive ; [IMAGE1] sur un terrain verdoyant, l'accent est mis sur un joueur de football américain tenant un ballon de football, pris dans la lumière du soleil ; [IMAGE2] transition vers le même joueur, englouti par des effets dramatiques de tempête de sable et d'éclairs, la poussière tourbillonne autour de lui, créant un effet de tempête de sable féroce sur un terrain sombre et sombre. »
Les résultats des tests montrent qu'IC-LoRA a obtenu des résultats de haute qualité dans diverses tâches de génération d'images, qu'il s'agisse de générer des portraits, des conceptions de polices, des décorations d'intérieur, ou des storyboards de films et des effets visuels, il les gère facilement, c'est un véritable couteau suisse.
L'arrivée d'IC-LoRA représente une avancée majeure dans le domaine de la génération d'images par l'IA. Elle réduit considérablement le coût d'entraînement des modèles d'IA, permettant à un plus grand nombre de personnes de participer à la création par l'IA.
À l'avenir, avec le développement continu d'IC-LoRA, nous avons des raisons de croire que l'IA deviendra un outil de création accessible à tous, permettant à chacun de devenir un artiste.
Adresse du projet : https://ali-vilab.github.io/In-Context-LoRA-Page/