M&M VTO es un método de prueba virtual de prendas mixtas y combinadas. Recibe como entrada múltiples imágenes de prendas, una descripción textual de la disposición de las prendas y una imagen de una persona, generando como salida una visualización de dichas prendas vestidas en la persona especificada, con la disposición indicada. Las principales ventajas de esta tecnología incluyen: un modelo de difusión de una sola etapa, sin necesidad de cascada de superresolución, capaz de combinar múltiples prendas con una resolución de 1024x512, preservando y distorsionando detalles complejos de las prendas; un diseño de arquitectura (VTO UNet Diffusion Transformer) que separa la eliminación de ruido y las características específicas de la persona, permitiendo una estrategia de ajuste fino eficiente para la preservación de la identidad; y el control de la disposición de las prendas múltiples mediante entrada de texto, específicamente ajustado para tareas de prueba virtual. M&M VTO ha alcanzado un rendimiento de vanguardia tanto cualitativa como cuantitativamente, abriendo nuevas posibilidades para la prueba virtual guiada por lenguaje y de prendas múltiples.