Recentemente, uma equipe de pesquisa da Academia de Inteligência Artificial de Pequim lançou um novo modelo de geração de imagens chamado OmniGen.
Um jogador versátil na geração e edição de imagens
Em comparação com ferramentas de geração de imagens anteriores, como o Stable Diffusion, o maior destaque do OmniGen é que ele não se concentra apenas em uma única tarefa; ele possui várias capacidades:
Ele pode lidar com várias tarefas de geração de imagens em uma estrutura unificada, incluindo geração de imagem a partir de texto e edição de imagem – um verdadeiro multitarefa.
Isso significa que os usuários podem controlar a geração e edição precisa de imagens simplesmente fornecendo prompts simples, sem precisar usar plugins como ControlNet ou IP-Adapter para ajustes detalhados!
Aqui, o AIbase fornece um prompt detalhado para criar uma foto com o tema de uma câmera antiga, com detalhes e efeitos impressionantes, conforme mostrado abaixo:
Prompt: Uma câmera vintage no chão, ejetando uma nuvem giratória de fotografias estilo Polaroid no ar. As fotos, mostrando paisagens, vida selvagem e cenas de viagens, parecem desafiar a gravidade, flutuando para cima em um vórtice de movimento. A câmera emite uma luz brilhante e esfumaçada por dentro, realçando a atmosfera mágica e surreal. O fundo escuro contrasta com as fotos e a câmera iluminadas, criando uma cena onírica e nostálgica repleta de cores vibrantes e movimento dinâmico. Fotos espalhadas são visíveis no chão, contribuindo ainda mais para a ideia de uma explosão de memórias capturadas.
Veja também os três exemplos oficiais abaixo. Ao carregar duas imagens e inserir prompts relevantes, elas podem ser combinadas em uma única cena.
A arquitetura do OmniGen é muito simplificada. Diferentemente dos modelos de geração de imagens anteriores, ele não requer codificadores de texto adicionais ou fluxos de trabalho complexos. Basta inserir as condições e o OmniGen gerará imagens de forma eficiente, melhorando significativamente a experiência do usuário. Ele combina um autocodificador variacional e um modelo Transformer pré-treinado para processar simultaneamente entradas de imagem e texto em um único modelo, reduzindo complexidades desnecessárias.
Para melhorar a geração de imagens, o OmniGen também utiliza um método de treinamento de fluxo de correção. Esse método, através da regressão direta da velocidade alvo, permite um controle mais preciso da geração de imagens. Além disso, sua estratégia de treinamento progressivo permite que o modelo domine gradualmente as técnicas de geração, de baixa para alta resolução, com resultados excelentes.
OmniGen se compara a modelos avançados na geração de imagens
O OmniGen foi treinado em um conjunto de dados extremamente amplo e diversificado, abrangendo várias tarefas de geração de imagens. Para garantir a capacidade do modelo em lidar com múltiplas tarefas, os pesquisadores construíram um conjunto de dados em larga escala chamado X2I, que inclui dados de várias tarefas, como texto para imagem e edição de imagem. Isso permitiu que o OmniGen aprendesse e transferisse conhecimento de diferentes tarefas de forma eficaz, exibindo novas capacidades de geração.
Em vários testes, o desempenho do OmniGen foi surpreendente. Na geração de imagem a partir de texto, seu desempenho é comparável ao dos modelos mais avançados do mercado. No teste de referência GenEval, o OmniGen utilizou apenas 100 milhões de imagens para treinamento, enquanto o SD3 utilizou mais de 1 bilhão de imagens.
Sua capacidade de edição de imagem também é excelente, permitindo o controle preciso da imagem de origem e das instruções de edição. Por exemplo, no conjunto de testes EMU-Edit, superou modelos conhecidos como InstructPix2Pix e se compara ao modelo EMU-Edit mais avançado atualmente.
Em tarefas de geração orientadas por assunto, o OmniGen demonstrou uma capacidade de personalização excepcional, adequado para criação artística e design de publicidade, entre outros.
Endereço para teste: https://huggingface.co/spaces/Shitao/OmniGen
Artigo: https://arxiv.org/html/2409.11340v1