Recentemente, a Universidade Sun Yat-sen e a equipe de pessoas digitais ByteDance criaram uma grande notícia: eles apresentaram uma estrutura de prova virtual chamada MMTryon. Esta ferramenta não é simples: basta inserir imagens de algumas roupas e instruções de texto sobre como vesti-las para gerar instantaneamente um efeito de modelo vestindo as roupas, com alta qualidade.

image.png

Imagine: você escolhe um casaco, uma calça e uma bolsa, e com um clique, elas são automaticamente vestidas em uma imagem de pessoa. Seja uma pessoa real ou um personagem de desenho animado, tudo pode ser feito com um clique – a operação é simplesmente incrível!

Além disso, o MMTryon é ainda mais poderoso. Em termos de troca de roupa em imagem única, ele usa uma grande quantidade de dados para projetar um codificador de roupas, capaz de lidar com vários cenários complexos de troca de roupa e qualquer estilo de roupa. Quanto à combinação de roupas, ele quebra a dependência dos algoritmos tradicionais em relação à segmentação precisa de roupas; uma instrução de texto é suficiente para gerar resultados realistas e naturais.

image.png

Nos testes de referência, o MMTryon conquistou diretamente o novo SOTA – um resultado impressionante. A equipe de pesquisa também desenvolveu um mecanismo de atenção multimodal e multirreferência para tornar o efeito de troca de roupa mais preciso e flexível. Soluções de prova virtual anteriores só podiam experimentar peças únicas ou eram ineficazes em relação aos estilos de vestuário. Mas agora, o MMTryon resolve tudo.

Além disso, o MMTryon é extremamente inteligente: ele usa um codificador de roupas com capacidade representativa rica e um novo processo de geração de dados expansível, permitindo que o processo de troca de roupa seja realizado sem nenhuma segmentação, diretamente por meio de texto e vários objetos de prova, para realizar trocas virtuais de alta qualidade.

image.png

Em uma grande quantidade de experimentos em conjuntos de dados abertos e cenários complexos, o MMTryon superou os métodos SOTA existentes em termos qualitativos e quantitativos. A equipe de pesquisa também pré-treinou um codificador de roupas, usando texto como consulta para ativar as características da área correspondente ao texto, eliminando a dependência da segmentação de roupas.

image.png

Ainda mais impressionante: para treinar a combinação de roupas, a equipe de pesquisa propôs um modelo de aumento de dados baseado em modelos grandes, construindo um conjunto de dados aumentado de 1 milhão, permitindo que o MMTryon tenha efeitos de prova virtual realistas em vários tipos de troca de roupa.

O MMTryon é como uma tecnologia de ponta no mundo da moda: ele não apenas permite que você experimente roupas com um clique, mas também pode servir como uma ferramenta auxiliar de design de moda para ajudá-lo a escolher roupas. Em métricas quantitativas e avaliação humana, o MMTryon superou outros modelos de referência, com resultados excelentes.

Endereço do artigo: https://arxiv.org/abs/2405.00448