O surgimento de modelos como Stable Diffusion marcou um avanço significativo na geração de imagens, mas sua diferença fundamental com modelos de linguagem autorregressivos impediu o desenvolvimento de um modelo unificado de linguagem e visão. Para resolver esse problema, os pesquisadores apresentaram o Meissonic, que eleva a técnica de modelagem de imagens mascaradas não autorregressivas (MIM) de texto para imagem a um nível comparável a modelos de difusão de ponta, como o SDXL.
O cerne do Meissonic reside em uma série de inovações arquitetônicas, estratégias avançadas de codificação posicional e condições de amostragem otimizadas, melhorando significativamente o desempenho e a eficiência do MIM. Além disso, o Meissonic utiliza dados de treinamento de alta qualidade, integra microcondições baseadas em pontuações de preferência humana e emprega camadas de compressão de recursos, aprimorando ainda mais a fidelidade e a resolução da imagem.
Diferentemente de grandes modelos de difusão como SDXL e DeepFloyd-XL, o Meissonic possui apenas 1 bilhão de parâmetros, mas consegue gerar imagens de alta qualidade com resolução de 1024×1024 e pode ser executado em GPUs de consumo com apenas 8 GB de VRAM, sem otimizações de modelo adicionais. Além disso, o Meissonic pode gerar facilmente imagens com fundos de cores sólidas, algo que geralmente requer ajuste fino do modelo ou ajustes de deslocamento de ruído em modelos de difusão.
Para alcançar um treinamento eficiente, o processo de treinamento do Meissonic foi dividido em quatro etapas cuidadosamente projetadas:
Primeira etapa: Compreensão de conceitos básicos a partir de um grande volume de dados. O Meissonic utiliza o conjunto de dados LAION-2B filtrado, treinando em resolução de 256×256 para aprender conceitos básicos.
Segunda etapa: Alinhamento de texto e imagem usando prompts longos. A resolução de treinamento é aumentada para 512×512, e pares de texto e imagem sintéticos de alta qualidade e um conjunto de dados interno são usados para melhorar a capacidade do modelo de entender prompts descritivos longos.
Terceira etapa: Domínio da compressão de recursos para geração de maior resolução. Ao introduzir camadas de compressão de recursos, o Meissonic pode fazer uma transição perfeita de 512×512 para geração de 1024×1024, treinando com pares de texto e imagem de alta resolução selecionados.
Quarta etapa: Otimização da geração de imagens estéticas de alta resolução. Nesta etapa, o modelo é ajustado com uma taxa de aprendizado menor e pontuações de preferência humana são adicionadas como microcondições para melhorar o desempenho do modelo na geração de imagens de alta qualidade.
Através de uma avaliação de uma série de métricas quantitativas e qualitativas, incluindo os benchmarks HPS, MPS, GenEval e avaliação GPT4o, o Meissonic demonstra desempenho e eficiência superiores. Em comparação com DALL-E2 e SDXL, o Meissonic alcança desempenho competitivo em desempenho humano e alinhamento de texto, além de demonstrar sua eficiência.
Além disso, o Meissonic apresenta excelente desempenho na edição de imagem para imagem de zero-shot. No conjunto de dados EMU-Edit, o Meissonic obteve resultados de ponta em sete operações diferentes: alteração de fundo, alteração de conteúdo da imagem, alteração de estilo, remoção de objeto, adição de objeto, modificação local e alteração de cor/textura. Tudo isso sem treinamento ou ajuste fino em dados ou conjuntos de instruções específicos para edição de imagem.
Endereço do projeto: https://github.com/viiika/Meissonic
Endereço do artigo: https://arxiv.org/pdf/2410.08261