Recientemente, la Universidad Sun Yat-sen y el equipo de personas digitales ByteDance han creado una gran noticia: ¡han presentado un marco de prueba virtual llamado MMTryon! Este sistema es increíblemente sofisticado: solo con cargar imágenes de varias prendas y unas pocas instrucciones de texto sobre cómo vestirlas, puedes generar instantáneamente una imagen de un modelo vistiendo la ropa, con una calidad excepcional.
Imagina: seleccionas un abrigo, unos pantalones y un bolso, y ¡"clic"! Aparecen automáticamente en la imagen de un maniquí. Funciona tanto con personas reales como con personajes de dibujos animados, ¡es increíblemente genial!
Pero las capacidades de MMTryon van mucho más allá. En el cambio de atuendo con una sola imagen, utiliza una gran cantidad de datos para diseñar un codificador de ropa capaz de gestionar escenarios complejos de cambio de vestuario y cualquier estilo de prenda. En cuanto a los conjuntos, rompe con la dependencia de los algoritmos tradicionales en la segmentación precisa de la ropa; una simple instrucción de texto es suficiente para generar un resultado realista y natural.
En las pruebas de referencia, MMTryon logró el nuevo SOTA (State-of-the-Art), un logro impresionante. El equipo de investigación también implementó un mecanismo de atención multimodal y multireferencia para lograr resultados de cambio de vestuario más precisos y flexibles. Las soluciones de prueba virtual anteriores solo podían probar prendas individuales o tenían dificultades con los estilos de vestimenta. MMTryon soluciona todo esto.
Además, MMTryon es muy inteligente: utiliza un codificador de ropa con una rica capacidad de representación y un novedoso proceso de generación de datos escalable, lo que permite el cambio de vestuario sin necesidad de segmentación, directamente a través de texto y múltiples objetos de prueba para lograr un cambio de vestuario virtual de alta calidad.
Numerosos experimentos en conjuntos de datos de código abierto y escenarios complejos demuestran que MMTryon supera a los métodos SOTA existentes tanto cualitativa como cuantitativamente. El equipo de investigación también preentrenó un codificador de ropa que utiliza texto como consulta para activar las características del área correspondiente al texto, eliminando la dependencia de la segmentación de la ropa.
Lo que es aún más impresionante es que, para entrenar el cambio de vestuario combinado, el equipo de investigación propuso un modelo de aumento de datos basado en modelos grandes, construyendo un conjunto de datos aumentado de 1 millón de imágenes, lo que permite a MMTryon lograr efectos de prueba virtual realistas en todo tipo de cambios de vestuario.
MMTryon es una tecnología de vanguardia en el mundo de la moda, no solo te ayuda a probar ropa al instante, sino que también funciona como una herramienta de diseño de vestuario, ayudándote a elegir ropa. En los indicadores cuantitativos y la evaluación humana, MMTryon supera a otros modelos de referencia, con resultados excelentes.
Dirección del artículo: https://arxiv.org/abs/2405.00448