InfiniteYou: estrutura de geração de imagens da ByteDance que preserva recursos faciais e permite mudança de cenários

A ByteDance lançou discretamente uma ferramenta de geração de imagens chamada InfiniteYou (InfU). Em poucas palavras, é um modelo de geração de imagem a partir de texto, sua força está em gerar imagens de alta qualidade com suas características pessoais com base na descrição de texto que você inserir.

Isso não se compara a simples aplicativos de troca de rosto. Ele se concentra em preservar com precisão suas características pessoais enquanto altera de forma flexível cenários e conteúdo. Imagine gerar facilmente fotos suas andando no espaço com um traje espacial, ou vestida com roupas tradicionais em uma viagem ao passado, e ainda assim garantir que o rosto seja o seu. Não é incrível?

“InfiniteYou” consegue fazer isso graças a uma combinação de fatores.

Arma principal: InfuseNet. O “InfiniteYou” tem como arma principal o InfuseNet. Ele injeta suas características pessoais de forma inteligente em um modelo avançado de geração de imagens chamado Diffusion Transformer (DiT) (como o FLUX). O InfuseNet é como um maquiador habilidoso que, através de “conexões residuais”, aprimora a semelhança facial sem comprometer a capacidade de geração original.
Treinamento em várias etapas: Aperfeiçoamento contínuo. O “InfiniteYou” não foi criado de uma só vez, mas passou por pré-treinamento e ajuste fino supervisionado (SFT) usando dados sintéticos de amostra múltipla de uma única pessoa (SPMS), entre outros desafios. Essa estratégia de treinamento refinada melhora significativamente o alinhamento entre texto e imagem, tornando as imagens geradas mais coerentes com sua descrição de texto, além de melhorar a qualidade e a estética das imagens e aliviar os problemas comuns de colagem facial após a troca de rosto.
“Dupla proteção” do modelo: Foco em diferentes aspectos. A ByteDance também lançou os modelos aes_stage2 e sim_stage1. O aes_stage2 é um modelo ajustado na segunda etapa, que por padrão apresenta melhor alinhamento texto-imagem e estética. Se você prioriza a semelhança facial, escolha o sim_stage1. É como escolher um celular: um focado em fotos, outro em desempenho, sempre há um que te agrada.

Experimentos comparativos mostram que o “InfiniteYou” supera métodos avançados existentes, como FLUX.1-dev IP-Adapter e PuLID-FLUX, em termos de semelhança de identidade, alinhamento texto-imagem, qualidade e estética da imagem. Esses métodos apresentavam problemas como rostos diferentes, inconsistência entre descrição de texto e conteúdo da imagem, ou baixa qualidade da imagem, com colagem artificial de rostos. Em comparação, o “InfiniteYou” apresenta um desempenho mais abrangente e excelente.

Ainda mais surpreendente é que o “InfiniteYou” é “plug-and-play”. Ele se integra perfeitamente com várias variantes do FLUX.1-dev (como o FLUX.1-schnell mais eficiente), ControlNets e LoRAs, oferecendo maior controlabilidade e personalização. Ele também pode ser combinado com o IP-Adapter para realizar a transferência de estilo de imagens personalizadas. Essa compatibilidade robusta certamente contribuirá para uma comunidade mais ampla.

É importante observar que o “InfiniteYou” atualmente é distribuído sob a Licença Pública Internacional Creative Commons Attribution-NonCommercial 4.0, apenas para fins de pesquisa acadêmica. O download e o uso de modelos relacionados (como modelos faciais InsightFace, modelos base FLUX.1-dev e LoRA) devem respeitar suas licenças originais. Os desenvolvedores também esperam que os usuários cumpram as leis e regulamentos locais e usem essa tecnologia de forma responsável, evitando qualquer uso indevido potencial.

Página do projeto: https://top.aibase.com/tool/infiniteyou

Notícias e Informações de IA

InfiniteYou: estrutura de geração de imagens da ByteDance que preserva recursos faciais e permite mudança de cenários

AIbase基地

Notícias de IA Relacionadas Recomendadas

CogView4: Modelo de texto para imagem de código aberto da Zhipu AI, com suporte para prompts em chinês e inglês

CogView4: Primeiro modelo de texto para imagem de código aberto a gerar caracteres chineses lançado pela ZhiPu

Zero One Universe nega aquisição pela Alibaba: rumores são infundados

Alibaba Cloud Tongyi Wanxiang lança novo modelo de edição de imagem ACE para edição de imagens com um clique