ByteDance ha lanzado silenciosamente una herramienta de generación de imágenes llamada InfiniteYou (InfU). En pocas palabras, es un modelo de generación de imagen a partir de texto que destaca por su capacidad de generar imágenes de alta calidad con tus rasgos faciales personales a partir de una descripción textual.

QQ_1742541024681.png

Esto no se limita a una simple aplicación de intercambio de rostros. Se centra en preservar con precisión tus rasgos faciales mientras se cambian de forma flexible el escenario y el contenido. Imagina generar fácilmente fotos tuyas caminando por el espacio con un traje de astronauta o vestida con ropa de época en la antigüedad, ¡y con tu propia cara! ¿No es genial?

La capacidad de "InfiniteYou" se basa en una combinación de técnicas.

  • Arma principal: InfuseNet. El núcleo de "InfiniteYou" es un arma secreta llamada InfuseNet. Esta integra tus rasgos faciales en un modelo avanzado de generación de imágenes llamado Diffusion Transformer (DiT) (como FLUX). InfuseNet actúa como un maquillador experto, utilizando "conexiones residuales" para mejorar la similitud facial sin afectar la capacidad de generación original.
  • Entrenamiento multietapa: perfeccionamiento. "InfiniteYou" no se creó de la noche a la mañana, sino que ha pasado por un entrenamiento previo y un ajuste fino supervisado (SFT) utilizando datos de muestras múltiples de una sola persona (SPMS) sintéticas. Esta estrategia de entrenamiento refinado mejora significativamente la alineación entre texto e imagen, haciendo que las imágenes generadas se ajusten mejor a tu descripción textual, a la vez que mejora la calidad y la estética de la imagen y reduce los problemas comunes de "copiar y pegar" la cara tras el intercambio facial.
  • Modelos "doble seguro": enfoques diferentes. ByteDance también ha lanzado amablemente dos versiones del modelo: aes_stage2 y sim_stage1. aes_stage2 es un modelo ajustado en una segunda etapa que ofrece por defecto una mejor alineación texto-imagen y estética. Si te preocupa más la similitud facial, puedes elegir sim_stage1. Es como comprar un teléfono móvil: uno se centra en la calidad de la cámara y el otro en el rendimiento, siempre hay uno adecuado para ti.

Las pruebas comparativas muestran que "InfiniteYou" supera a los métodos avanzados existentes, como FLUX.1-dev IP-Adapter y PuLID-FLUX, en términos de similitud de identidad, alineación texto-imagen, calidad de imagen y estética. Estos métodos presentan problemas como falta de parecido facial, inconsistencia entre la descripción textual y el contenido de la imagen, o baja calidad de la imagen, incluso problemas de pegado artificial de rasgos faciales tras el intercambio de rostros. En comparación, "InfiniteYou" ofrece un rendimiento más completo y excelente.

Sorprendentemente, "InfiniteYou" también ofrece una característica de “plug-and-play”. Se puede integrar perfectamente con varias variantes de FLUX.1-dev (como el más eficiente FLUX.1-schnell), ControlNets y LoRAs, ofreciendo mayor control y personalización. Incluso se puede combinar con IP-Adapter para lograr la transferencia de estilo de imágenes personalizadas. Esta potente compatibilidad sin duda contribuirá a una comunidad más amplia.

Cabe señalar que "InfiniteYou" se publica actualmente bajo la Licencia Pública Internacional Creative Commons Attribution-NonCommercial 4.0, solo para uso de investigación académica. La descarga y el uso de los modelos relacionados (como el modelo de rostro InsightFace, el modelo base FLUX.1-dev y LoRA) deben cumplir con sus licencias originales. Los desarrolladores también esperan que los usuarios cumplan con las leyes y regulaciones locales y utilicen esta tecnología de forma responsable para evitar cualquier posible uso indebido.

Enlace al proyecto: https://top.aibase.com/tool/infiniteyou