InfiniteYou : Cadre de génération d'images par texte de ByteDance, préservant les traits du visage et adaptable à tous les contextes

ByteDance a discrètement lancé un générateur d'images appelé InfiniteYou (InfU). Il s'agit simplement d'un modèle de génération d'images à partir de texte, capable de générer des images de haute qualité avec vos traits personnels à partir d'une description textuelle.

Ce n'est pas une simple application d'échange de visage. Il se concentre sur la préservation précise de vos traits tout en modifiant de manière flexible les scènes et le contenu. Imaginez-vous générer facilement des photos de vous-même marchant dans l'espace en combinaison spatiale, ou en costume traditionnel dans l'Antiquité, avec votre propre visage. N'est-ce pas génial ?

La capacité d'« InfiniteYou » repose sur une combinaison de techniques.

Arme secrète : InfuseNet. Au cœur d'« InfiniteYou » se trouve InfuseNet, une arme secrète capable d'injecter subtilement vos traits dans un modèle de génération d'images avancé appelé Diffusion Transformer (DiT) (comme FLUX). InfuseNet est comme un maquilleur expert qui, grâce à des « connexions résiduelles », améliore la ressemblance du visage sans compromettre les capacités de génération.
Entraînement multi-étapes : la quête de la perfection. « InfiniteYou » n'est pas né du jour au lendemain. Il a subi un pré-entraînement et un ajustement fin supervisé (SFT) utilisant des données SPMS (Single Person Multi-Sample) synthétiques. Cette stratégie d'entraînement précise améliore considérablement l'alignement texte-image, rendant les images générées plus fidèles à votre description textuelle, tout en améliorant la qualité et l'esthétique des images et en atténuant efficacement les problèmes de « collage » de visage.
Deux modèles : chacun a ses forces. ByteDance a également publié deux versions de modèles : aes_stage2 et sim_stage1. aes_stage2, le modèle affiné à la deuxième étape, offre par défaut un meilleur alignement texte-image et une meilleure esthétique. Si vous privilégiez la ressemblance faciale, choisissez sim_stage1. C'est comme choisir un téléphone : l'un privilégie la qualité photo, l'autre les performances. Il y en a forcément un pour vous.

Des expériences comparatives montrent qu'« InfiniteYou » surpasse les méthodes de pointe existantes, telles que FLUX.1-dev IP-Adapter et PuLID-FLUX, en termes de ressemblance, d'alignement texte-image, de qualité et d'esthétique des images. Ces méthodes souffrent soit d'un manque de ressemblance faciale, soit d'un décalage entre la description textuelle et le contenu de l'image, soit d'une qualité d'image médiocre, voire de problèmes de « collage » artificiel du visage. « InfiniteYou » offre des performances plus complètes et exceptionnelles.

Plus surprenant encore, « InfiniteYou » est « plug-and-play ». Il s'intègre parfaitement aux différentes variantes de FLUX.1-dev (comme le plus efficace FLUX.1-schnell), ControlNets et LoRAs, offrant une plus grande contrôlabilité et personnalisation. Il peut même être combiné avec IP-Adapter pour le transfert de style d'images personnalisées. Cette compatibilité puissante contribuera sans aucun doute à la communauté.

Il est important de noter qu'« InfiniteYou » est publié sous la licence Creative Commons Attribution-NonCommercial 4.0 International et est destiné uniquement à la recherche académique. Le téléchargement et l'utilisation des modèles associés (tels que les modèles de visage InsightFace, le modèle de base FLUX.1-dev et LoRA) doivent respecter leurs licences d'origine. Les développeurs encouragent également les utilisateurs à respecter les lois et réglementations locales et à utiliser cette technologie de manière responsable afin d'éviter toute utilisation abusive potentielle.

Accès au projet : https://top.aibase.com/tool/infiniteyou

Actualités IA

InfiniteYou : Cadre de génération d'images par texte de ByteDance, préservant les traits du visage et adaptable à tous les contextes

AIbase基地