O Google DeepMind, em colaboração com o MIT (Instituto de Tecnologia de Massachusetts), divulgou recentemente uma descoberta significativa. A equipe de pesquisa desenvolveu um novo modelo autorregressivo chamado "Fluid", que alcançou um avanço revolucionário na geração de imagens a partir de texto. O desempenho do modelo foi excepcional após sua expansão para 10,5 bilhões de parâmetros.

Este estudo revolucionou a compreensão da indústria. Anteriormente, embora os modelos autorregressivos fossem dominantes no processamento de linguagem, eles eram considerados inferiores aos modelos de difusão, como Stable Diffusion e Google Imagen3, na geração de imagens. Os pesquisadores, por meio da introdução inovadora de dois fatores de design cruciais, melhoraram significativamente o desempenho e a escalabilidade dos modelos autorregressivos: a adoção de tokens contínuos em vez de tokens discretos e a introdução de uma ordem de geração aleatória em vez de uma ordem fixa.

image.png

No processamento de informações de imagem, a vantagem dos tokens contínuos é evidente. Os tokens discretos tradicionais codificam regiões de imagem como códigos em um vocabulário limitado, o que inevitavelmente leva à perda de informação, dificultando até mesmo para modelos grandes a geração precisa de detalhes como olhos simétricos. Os tokens contínuos, por outro lado, preservam informações mais precisas, melhorando significativamente a qualidade da reconstrução da imagem.

A equipe de pesquisa também inovou na ordem de geração de imagens. Os modelos autorregressivos tradicionais geralmente geram imagens em uma ordem fixa, da esquerda para a direita e de cima para baixo. Os pesquisadores experimentaram um método de ordem aleatória, permitindo que o modelo previsse vários pixels em qualquer posição a cada etapa. Este método se destacou em tarefas que exigem uma boa compreensão da estrutura geral da imagem, obtendo uma vantagem significativa no teste de referência GenEval, que mede a correspondência entre o texto e a imagem gerada.

O desempenho real do modelo Fluid comprova o valor da pesquisa. Após a expansão para 10,5 bilhões de parâmetros, o Fluid superou os modelos existentes em vários testes de referência importantes. É digno de nota que um pequeno modelo Fluid com apenas 369 milhões de parâmetros atingiu a pontuação FID (7,23) no conjunto de dados MS-COCO, equivalente à pontuação do modelo Parti com 20 bilhões de parâmetros.

Este resultado da pesquisa indica que modelos autorregressivos como o Fluid podem se tornar uma forte alternativa aos modelos de difusão. Em comparação com os modelos de difusão, que exigem múltiplas passagens para frente e para trás, o Fluid gera imagens com apenas uma passagem, uma vantagem de eficiência que se tornará ainda mais evidente com a expansão futura do modelo.