Récemment, l'Université Sun Yat-sen et l'équipe de personnages numériques ByteDance ont fait une grande annonce : ils ont présenté MMTryon, un cadre d'essayage virtuel. Cet outil est révolutionnaire : il suffit de fournir quelques images de vêtements et quelques instructions textuelles sur la façon de les porter pour générer instantanément une simulation d'essayage sur un mannequin, et ce, avec une qualité exceptionnelle.

image.png

Imaginez : vous sélectionnez un manteau, un pantalon et un sac, et « clic », ils sont automatiquement portés par un mannequin. Que ce soit un être humain ou un personnage de dessin animé, l'opération est instantanée et incroyablement efficace !

Mais les prouesses de MMTryon ne s'arrêtent pas là. Pour le changement de vêtements à partir d'une seule image, il utilise un grand nombre de données pour concevoir un encodeur de vêtements capable de gérer des scénarios complexes et tous les styles de vêtements. Quant aux combinaisons de vêtements, il rompt avec la dépendance des algorithmes traditionnels à une segmentation précise des vêtements ; une simple instruction textuelle suffit pour générer un résultat réaliste et naturel.

image.png

Lors des tests de référence, MMTryon a directement atteint le nouveau SOTA, une performance remarquable. L'équipe de recherche a également mis au point un mécanisme d'attention multi-modal et multi-référence pour rendre les résultats d'essayage plus précis et plus flexibles. Les solutions d'essayage virtuel précédentes ne permettaient que d'essayer des vêtements uniques ou étaient limitées par le style vestimentaire. MMTryon résout tous ces problèmes.

De plus, MMTryon est particulièrement intelligent. Il utilise un encodeur de vêtements à forte capacité de représentation et un nouveau processus de génération de données extensible, permettant un essayage virtuel de haute qualité sans aucune segmentation, directement à partir du texte et de plusieurs objets à essayer.

image.png

De nombreuses expériences menées sur des ensembles de données open source et dans des scénarios complexes ont démontré la supériorité de MMTryon, tant qualitativement que quantitativement, par rapport aux méthodes SOTA existantes. L'équipe de recherche a également pré-entraîné un encodeur de vêtements qui utilise le texte comme requête pour activer les caractéristiques de la zone correspondante, éliminant ainsi la dépendance à la segmentation des vêtements.

image.png

Plus impressionnant encore, pour entraîner les combinaisons de vêtements, l'équipe de recherche a proposé un modèle d'augmentation de données basé sur les grands modèles, construisant un ensemble de données enrichi de 1 million d'images, permettant à MMTryon d'offrir des résultats d'essayage virtuel réalistes pour tous les types de combinaisons.

MMTryon est une véritable innovation technologique dans le monde de la mode. Il permet non seulement d'essayer des vêtements instantanément, mais sert également d'outil d'aide à la conception de tenues, vous aidant à choisir vos vêtements. MMTryon surpasse les autres modèles de référence, tant en termes d'indicateurs quantitatifs que d'évaluation humaine.

Adresse de l'article : https://arxiv.org/abs/2405.00448