Os modelos de difusão (Diffusion Model), a tecnologia “top” na área de IA para criação de imagens, sempre foram admirados por seus excelentes resultados de geração. No entanto, seu longo processo de treinamento tem sido um gargalo para seu desenvolvimento.
Recentemente, uma tecnologia inovadora chamada REPA (REPresentation Alignment) trouxe um avanço significativo para resolver esse problema, prometendo aumentar a eficiência do treinamento de modelos de difusão em 17,5 vezes.
O princípio fundamental dos modelos de difusão é adicionar ruído gradualmente a uma imagem e, em seguida, treinar um modelo para reconstruir a imagem nítida de forma reversa. Embora esse método seja eficaz, o processo de treinamento é demorado e trabalhoso, geralmente exigindo milhões de iterações para alcançar resultados ideais.
Os pesquisadores descobriram que a raiz do problema está na baixa eficiência com que o modelo compreende as informações semânticas da imagem durante o aprendizado.
A inovação da tecnologia REPA reside na introdução de um codificador visual pré-treinado (como o DINOv2) como uma espécie de “óculos” para o modelo aprender as informações semânticas da imagem. Com esse método, o modelo de difusão pode continuamente comparar sua própria compreensão da imagem com o resultado do codificador pré-treinado durante o treinamento, acelerando assim a compreensão das características essenciais da imagem.
Os resultados experimentais são animadores:
Aumento significativo na eficiência do treinamento: Com o REPA, a velocidade de treinamento do modelo de difusão SiT aumentou 17,5 vezes. O que antes exigia 7 milhões de etapas agora pode ser alcançado em apenas 400.000 etapas.
Melhora significativa na qualidade da geração: O REPA não apenas acelerou a velocidade de treinamento, mas também melhorou a qualidade das imagens geradas. O índice FID (uma importante métrica para avaliar a qualidade da imagem gerada) caiu de 2,06 para 1,80, atingindo em alguns casos o nível superior de 1,42.
Simples, fácil de usar e altamente compatível: O método REPA é fácil de implementar, bastando adicionar um termo de regularização durante o treinamento. Além disso, é compatível com vários codificadores visuais pré-treinados, com ampla gama de aplicações.
A tecnologia REPA abre novas possibilidades para o campo da criação de imagens com IA:
Aceleração do desenvolvimento de aplicativos de criação de imagens com IA: Uma velocidade de treinamento mais rápida significa que os desenvolvedores podem iterar e otimizar modelos de criação de imagens com IA mais rapidamente, acelerando o lançamento de novos aplicativos.
Melhora na qualidade das imagens geradas: Ao compreender mais profundamente a semântica das imagens, o REPA contribui para a geração de imagens mais realistas e ricas em detalhes.
Promoção da fusão de modelos discriminativos e modelos gerativos: O REPA introduz a capacidade de codificadores visuais pré-treinados para modelos de difusão. Essa fusão pode inspirar mais inovações entre diferentes tipos de modelos, impulsionando a IA em direção a uma direção mais inteligente.
Redução dos custos de treinamento de IA: O aumento da eficiência do treinamento se traduz diretamente em economia de tempo e recursos computacionais, o que pode permitir que mais pesquisadores e desenvolvedores participem do desenvolvimento da tecnologia de criação de imagens com IA.
Expansão das áreas de aplicação da criação de imagens com IA: Um processo de treinamento mais eficiente pode levar a tecnologia de criação de imagens com IA a ser aplicada em mais áreas, como geração de imagens em tempo real e design personalizado.
Endereço do artigo: https://arxiv.org/pdf/2410.06940