PhotoDoodle, un nouveau système d'édition d'images IA développé par ByteDance en collaboration avec des équipes de recherche d'universités chinoises et singapouriennes, est en train de redéfinir notre compréhension de la création d'images. Cette technologie innovante, basée sur le modèle Flux.1, est capable d'apprendre des styles artistiques à partir d'un nombre réduit d'exemples et d'exécuter des instructions d'édition spécifiques avec précision, ouvrant ainsi de nouvelles possibilités pour l'expression créative.

Basé sur Flux.1

Au cœur de PhotoDoodle se trouve le système OmniEditor, développé en premier lieu par l'équipe de recherche. Il utilise intelligemment la technologie LoRA (Low-Rank Adaptation) pour améliorer le modèle de génération d'images Flux.1 de la start-up allemande Black Forest Labs. Cette méthode évite de restructurer complètement les poids du modèle original, mais ajoute plutôt de petites matrices dédiées permettant des ajustements conceptuels minimes jusqu'à des transformations de style complètes.

Par la suite, les chercheurs ont utilisé une variante appelée EditLoRA pour entraîner OmniEditor afin qu'il puisse reproduire des styles artistiques uniques. Grâce à des paires d'images sélectionnées créées en collaboration avec des artistes, le système a pu maîtriser les subtilités de chaque style artistique.

QQ20250226-092429.png

PhotoDoodle ajoute des éléments intéressants tels que des monstres, des effets magiques et des illustrations décoratives tout en conservant la composition de l'image originale. | Image : Huang et al.

"Clonage de codage de position" : préserver l'harmonie de l'image

L'innovation la plus remarquable de PhotoDoodle est la technique de "clonage de codage de position". Cette technique permet à l'IA de mémoriser la position exacte de chaque pixel de l'image originale, préservant ainsi l'intégrité de la composition de l'image lors de l'ajout de nouveaux éléments et garantissant que ces éléments s'intègrent naturellement à l'arrière-plan.

Cela résout un point faible crucial des IA d'édition d'images traditionnelles : soit elles modifient le style de l'image entière, soit elles ne peuvent éditer que des zones locales, rendant difficile l'intégration de nouveaux éléments décoratifs tout en conservant la perspective et l'arrière-plan d'origine. PhotoDoodle réalise cette prouesse sans entraînement supplémentaire sur les paramètres, ce qui améliore considérablement l'efficacité du traitement.

QQ20250226-092411.png

PhotoDoodle utilise divers styles artistiques pour transformer des photos quotidiennes - de mignons monstres de dessins animés à des effets de lignes et de couleurs dessinées à la main. | Image : Huang et al.

Vers un entraînement à partir d'une seule image

Lors des tests réels, PhotoDoodle a facilement géré des instructions complexes, allant de "rendre le chat plus blanc" à "ajouter un monstre rose grimpant sur un bâtiment". Comparé aux technologies existantes, il surpasse ses concurrents dans les tests de référence, notamment en termes de similarité entre l'image et la description textuelle, que ce soit pour des modifications ciblées ou des changements d'image globaux.

QQ20250226-092421.png

La comparaison de PhotoDoodle avec les systèmes d'édition d'images IA existants montre clairement une différence de qualité d'exécution pour les invites spécifiques. | Image : Huang et al.

Actuellement, PhotoDoodle nécessite des dizaines de paires d'images et des milliers d'étapes d'entraînement pour maîtriser un nouveau style. L'équipe de recherche s'est tournée vers des méthodes d'entraînement plus efficaces à partir d'une seule image et a publié un jeu de données contenant six styles artistiques différents et plus de 300 paires d'images. Le code associé a également été open-sourcé sur GitHub, fournissant une base solide pour les recherches futures.

Adresse : https://github.com/showlab/PhotoDoodle