Pesquisas recentes do Alibaba Tongyi Lab demonstram que os modelos atuais de transformadores de difusão de texto para imagem já possuem a capacidade de gerar várias imagens com relações específicas. Com um pequeno "empurrão", eles conseguem "integrar" e gerar conjuntos de várias imagens de alta qualidade.
Os modelos de difusão tradicionais são como alunos que "decoram": precisam de uma quantidade enorme de dados de treinamento para gerar imagens de alta qualidade.
Com o IC-LoRA, eles se tornam "versáteis" como estudantes brilhantes, aprendendo novas habilidades com apenas alguns exemplos.
O princípio por trás disso não é complicado. Os pesquisadores descobriram que os modelos de difusão de texto para imagem existentes já possuem uma capacidade de "aprendizado de contexto", apenas precisando de algumas técnicas para ativá-la.
Eles realizaram vários experimentos, usando modelos de texto para imagem existentes para gerar várias imagens. Os resultados mostraram que o modelo consegue entender as relações entre as imagens e gerar conjuntos de imagens consistentes. Embora ainda existam alguns pequenos defeitos, os resultados são impressionantes.
Assim, eles projetaram um processo simples e eficaz para despertar a capacidade de "aprendizado de contexto" dos modelos de difusão:
Combinar várias imagens em uma única imagem maior, em vez de concatenar os tokens como antes. Isso permite que o modelo de difusão processe imagens diretamente, em vez de tokens abstratos.
Combinar as descrições de texto de cada imagem em um prompt longo, permitindo que o modelo processe simultaneamente as informações de várias imagens e entenda as relações entre elas.
Por exemplo:
Prompt: "Nesta sequência de três imagens de aventura, [IMAGE1] Ethan, um arqueólogo corajoso com aparência rude, descobre um mapa antigo em um local de escavação desértica ensolarado. Sua empolgação é evidente enquanto ele remove a areia, [IMAGE2] transição para uma cidade estrangeira vibrante e movimentada, onde Ethan negocia com comerciantes locais e reúne suprimentos para sua missão, [IMAGE3] finalmente, Ethan atravessa uma floresta densa e nebulosa, com árvores imponentes e animais selvagens exóticos destacando os desafios e mistérios de sua jornada."
Prompt: "Em uma história cativante de resiliência, [IMAGE1] vemos Lena, uma garota determinada, plantando sementes em um campo árido, com determinação em seu rosto, [IMAGE2] transição para ela cultivando as plantas, regando-as diariamente, com seus esforços gradualmente dando frutos, [IMAGE3] culminando em um jardim exuberante e vibrante, com Lena orgulhosamente em pé em meio à sua criação, simbolizando crescimento e perseverança."
Ajustar finamente o modelo com um pequeno número de conjuntos de imagens de alta qualidade, em vez de usar centenas de milhares de imagens para treinamento em larga escala como antes. Isso economiza poder computacional e preserva o conhecimento e a capacidade de "aprendizado de contexto" do modelo original.
O modelo IC-LoRA resultante é muito simples, não requerendo nenhuma modificação no modelo original de texto para imagem. Apenas requer ajuste de uma pequena quantidade de dados de treinamento para tarefas específicas.
Por exemplo, se você quiser que o Stable Diffusion aprenda a gerar imagens em estilo de quadrinhos, basta treinar o modelo IC-LoRA com algumas imagens de quadrinhos, e ele poderá gerar todos os tipos de quadrinhos que você desejar, quase que "instantaneamente".
Prompt: "Este par de imagens apresenta uma transformação de um retrato realista para uma ilustração lúdica, capturando detalhes e talento artístico; [IMAGE1] Uma mulher em uma foto está em um mercado movimentado, usando um chapéu de aba larga e um vestido fluido boêmio, carregando uma bolsa de ombro de couro; [IMAGE2] A versão ilustrada exagera seus acessórios e características, o vestido boêmio é retratado com padrões vibrantes e cores ousadas, enquanto o fundo é simplificado para bancas de mercado abstratas, dando ao cenário uma sensação animada e divertida."
Para tornar o IC-LoRA mais poderoso, os pesquisadores também adicionaram a capacidade de geração de imagens condicionais. Em termos simples, isso significa gerar novas imagens com base em imagens existentes. Por exemplo, gerar imagens com diferentes expressões e poses com base em uma foto de uma pessoa, ou gerar imagens com diferentes condições climáticas e iluminação com base em uma foto de paisagem.
Por exemplo:
Prompt: "Este conjunto de quatro imagens captura os momentos serenos de uma mulher idosa cuidando de seu jardim. [IMAGE1] Ela está ajoelhada ao lado de uma cama de canteiros floridos, delicadamente podando um arbusto de rosas, com a suave luz da manhã iluminando seus cabelos grisalhos; [IMAGE2] Ela está de pé com um borrifador, com uma expressão calma e serena enquanto cuida das plantas; [IMAGE3] Um close mostra um sorriso de satisfação enquanto ela olha para uma flor em botão em sua mão, com orgulho e alegria evidentes; [IMAGE4] Ela está sentada em um pequeno banco, tomando chá em seu jardim, cercada pelas cores vibrantes de seu trabalho árduo."
Prompt: "Este conjunto de duas imagens ilustra o impacto transformador de uma tempestade de areia em um cenário esportivo; [IMAGE1] Em um campo verdejante, o foco de uma equipe de futebol americano é um jogador com uma bola de futebol, fotografado sob luz solar brilhante, [IMAGE2] transição para o mesmo jogador, que é engolido por efeitos dramáticos de areia e relâmpagos, com poeira pairando ao seu redor, criando um efeito de tempestade de areia furiosa em um campo escuro e sombrio."
Os resultados dos testes mostraram que o IC-LoRA alcançou resultados de alta qualidade em várias tarefas de geração de imagens, desde a geração de retratos, design de fontes e decoração de interiores até a geração de storyboards de filmes e efeitos visuais. Ele lida com tudo com facilidade, sendo verdadeiramente um "mestre de todas as artes".
A chegada do IC-LoRA representa um avanço monumental no campo da geração de imagens de IA. Ele reduz significativamente o custo de treinamento de modelos de IA, permitindo que mais pessoas participem da criação de IA.
No futuro, com o desenvolvimento contínuo do IC-LoRA, temos razões para acreditar que a IA se tornará uma ferramenta de criação acessível a todos, permitindo que todos se tornem artistas.
Endereço do projeto: https://ali-vilab.github.io/In-Context-LoRA-Page/