Na área de inteligência artificial, o Infinity, o mais recente modelo da equipe de tecnologia de comercialização da ByteDance, tornou-se o novo líder no campo da geração de imagens a partir de texto autorregressivo, graças ao seu desempenho excepcional e tecnologia inovadora. Este novo modelo de código aberto não apenas supera o Stable Diffusion 3 na qualidade de geração de imagens, mas também demonstra vantagens significativas na velocidade de inferência.

A inovação central do modelo Infinity reside no uso de uma estrutura autorregressiva de Token Bitwise. Esta estrutura prevê "Tokens Bitwise" de granularidade fina, compostos por +1 ou -1 na resolução do próximo nível, melhorando significativamente a capacidade do modelo de capturar sinais de alta frequência e, consequentemente, gerar imagens com detalhes mais ricos. Além disso, o modelo Infinity expande o vocabulário para o infinito, aumentando significativamente o espaço de representação do Image tokenizer e elevando o limite superior do desempenho da geração de imagens a partir de texto autorregressivo.

image.png

Em comparação de desempenho, o modelo Infinity se destaca entre os métodos autorregressivos, superando em muito métodos como HART, LlamaGen e Emu3. Em avaliações humanas, ele derrotou o modelo HART em quase 90% das vezes. Simultâneamente, o Infinity também derrotou modelos de difusão SOTA como PixArt-Sigma, SD-XL e SD3-Meidum com taxas de vitória de 75%, 80% e 65%, respectivamente, demonstrando sua vantagem em modelos de mesmo tamanho.

image.png

Outra grande característica do modelo Infinity é sua boa capacidade de escalonamento. Com o aumento do tamanho do modelo e o investimento em recursos de treinamento, a perda do conjunto de validação diminuiu constantemente e a precisão do conjunto de validação aumentou de forma estável. Além disso, o Infinity também propôs uma técnica de autocorreção de bits, que aprimora a capacidade de autocorreção do modelo e alivia o problema de erro acumulado durante a inferência autorregressiva.

image.png

Em termos de velocidade de inferência, o Infinity herda a vantagem de velocidade do VAR. O modelo de 2B gera imagens de 1024x1024 em apenas 0,8 segundos, 3 vezes mais rápido que o SD3-Medium de mesmo tamanho e 14 vezes mais rápido que o Flux Dev de 12B. O modelo de 8B é 7 vezes mais rápido que o SD3.5 de mesmo tamanho, e o modelo de 20B leva 3 segundos para gerar imagens de 1024x1024, quase 4 vezes mais rápido que o Flux Dev de 12B.

Atualmente, o código de treinamento e inferência, demonstração, pesos do modelo do Infinity já estão disponíveis no repositório GitHub, e uma experiência no site também está disponível para facilitar o uso e a avaliação do modelo pelos usuários.

Página do projeto: https://foundationvision.github.io/infinity.project/