O sistema de edição de imagens com IA, PhotoDoodle, desenvolvido em parceria pela ByteDance com equipes de pesquisa de universidades na China e Singapura, está redefinindo nossa compreensão da criação de imagens. Essa tecnologia inovadora, baseada no modelo Flux.1, consegue aprender estilos artísticos a partir de poucos exemplos e executar instruções de edição específicas com precisão, abrindo novas possibilidades para a expressão criativa.

Com base no Flux.1

O núcleo do PhotoDoodle é o sistema OmniEditor, desenvolvido pela equipe de pesquisa. Ele utiliza habilmente a técnica LoRA (Low-Rank Adaptation) para aprimorar o modelo de geração de imagens Flux.1 da startup alemã Black Forest Labs. Esse método não requer a reformulação completa dos pesos do modelo original, mas sim a adição de pequenas matrizes especializadas, permitindo ajustes desde conceitos minúsculos até transformações de estilo completas.

Em seguida, os pesquisadores treinaram o OmniEditor usando uma variante chamada EditLoRA para replicar estilos artísticos únicos. Através de pares de imagens selecionadas, criadas em colaboração com artistas, o sistema aprendeu as nuances de cada estilo artístico.

QQ20250226-092429.png

O PhotoDoodle adiciona elementos interessantes, como monstros, efeitos mágicos e ilustrações decorativas, mantendo a composição da imagem original. | Imagem: Huang et al.

"Clonagem de Codificação de Posição": Mantendo a harmonia da imagem

A inovação mais notável do PhotoDoodle é a técnica de "Clonagem de Codificação de Posição". Essa técnica permite que a IA se lembre da posição exata de cada pixel na imagem original, mantendo assim a integridade da composição da imagem ao adicionar novos elementos e garantindo que os novos elementos se integrem naturalmente ao fundo.

Isso resolve um ponto crucial das IAs tradicionais de edição de imagens: ou alteram todo o estilo da imagem, ou só conseguem editar áreas locais, dificultando a integração de novos elementos decorativos mantendo a perspectiva e o fundo originais. O PhotoDoodle consegue superar essa limitação sem treinamento adicional de parâmetros, aumentando significativamente a eficiência do processamento.

QQ20250226-092411.png

O PhotoDoodle usa vários estilos artísticos para transformar fotos do dia a dia - de monstros de desenho animado adoráveis a linhas e efeitos de cores desenhados à mão. | Imagem: Huang et al.

Visão para treinamento com uma única imagem

Em testes práticos, o PhotoDoodle lidou facilmente com instruções complexas, desde "deixar o gato mais branco" até "adicionar um monstro rosa escalando um prédio". Em comparação com tecnologias existentes, ele se destaca em testes de referência, como a similaridade entre imagem e descrição de texto, superando produtos similares tanto em edições específicas quanto em alterações globais de imagem.

QQ20250226-092421.png

A comparação do PhotoDoodle com os sistemas de edição de imagens de IA existentes mostra claramente a diferença na qualidade de execução de prompts específicos. | Imagem: Huang et al.

Atualmente, o PhotoDoodle precisa de dezenas de pares de imagens e milhares de etapas de treinamento para dominar um novo estilo. A equipe de pesquisa está direcionando seus esforços para métodos de treinamento mais eficientes com uma única imagem e lançou um conjunto de dados contendo seis estilos artísticos diferentes e mais de 300 pares de imagens. O código também foi disponibilizado em código aberto no GitHub, fornecendo uma base sólida para pesquisas futuras.

Endereço:https://github.com/showlab/PhotoDoodle