Na área de geração de imagens, a tarefa de criar imagens de alta resolução e realistas sempre enfrentou múltiplos desafios, especialmente no processo de síntese de texto para imagem. Os métodos tradicionais de geração dependem principalmente de modelos de difusão e estruturas autoregressivas transformacionais (VAR).
Embora esses modelos consigam gerar imagens de alta qualidade, eles exigem uma grande quantidade de recursos computacionais, o que os torna pouco flexíveis para aplicações em tempo real. Ao mesmo tempo, os modelos VAR tendem a acumular erros ao lidar com marcadores discretos, levando à perda de detalhes na imagem gerada e comprometendo o realismo.
Para superar essas deficiências, a equipe de pesquisa da ByteDance lançou uma nova estrutura chamada "Infinity", projetada para melhorar a eficiência e a qualidade da síntese de texto para imagem.
O Infinity introduz marcadores de nível de bit em substituição aos marcadores de nível de índice tradicionais, permitindo uma representação mais granular, reduzindo significativamente o erro de quantização e melhorando o realismo das imagens geradas. Além disso, a estrutura utiliza um classificador de vocabulário infinito (IVC), expandindo o vocabulário de marcadores para 2^64, reduzindo drasticamente a necessidade de memória e de computação.
A arquitetura Infinity consiste principalmente em três partes: um marcador de quantização multi-escala de nível de bit, que converte as características da imagem em marcadores binários com baixo custo computacional; um modelo autoregressivo baseado em transformadores, que prevê os resíduos com base na entrada de texto e na saída anterior; e um mecanismo de autocorreção, que introduz inversões de bits aleatórias durante o treinamento para melhorar a robustez do modelo a erros. A equipe de pesquisa utilizou grandes conjuntos de dados como LAION e OpenImages para treinamento, obtendo progresso significativo através do aumento gradual da resolução da imagem, de 256×256 para 1024×1024.
Após a avaliação, o Infinity apresentou desempenho excelente em indicadores-chave, com uma pontuação GenEval de 0. e uma Fréchet Inception Distance (FID) reduzida para 3,48, demonstrando sua melhoria na velocidade e qualidade de geração. O Infinity consegue gerar imagens de alta resolução de 1024×1024 em 0,8 segundos, demonstrando sua eficiência e confiabilidade. As imagens geradas pelo sistema não apenas são visualmente realistas e ricas em detalhes, mas também respondem com precisão a instruções de texto complexas, recebendo altas pontuações de preferência humana.
O lançamento do Infinity marca um novo marco na área de síntese de texto para imagem de alta resolução. Através de um design inovador, ele resolve problemas de longa data de escalabilidade e qualidade de detalhes, impulsionando o desenvolvimento da IA generativa.
Artigo:https://arxiv.org/abs/2412.04431
Destaques:
🌟 **Estrutura inovadora Infinity:** A estrutura Infinity, lançada pela ByteDance, melhora significativamente a eficiência da geração de imagens de alta resolução através da marcação de nível de bit e do classificador de vocabulário infinito.
⚡ **Desempenho excepcional:** O Infinity supera os modelos existentes em indicadores-chave de avaliação, gerando imagens de alta qualidade de 1024×1024 em 0,8 segundos.
🖼️ **Realismo, detalhes e capacidade de resposta:** As imagens geradas são não apenas visualmente realistas, mas também respondem com precisão a prompts de texto complexos, apresentando altas pontuações de preferência humana.