Pesquisadores recentemente desenvolveram uma nova técnica chamada REPA, projetada para acelerar o treinamento de modelos de geração de imagens de IA. REPA significa REPresentation Alignment (Alinhamento de Representação), e melhora a velocidade de treinamento e a qualidade da saída integrando representações visuais de alta qualidade de modelos como o DINOv2.
Modelos de difusão tradicionais geralmente criam imagens ruidosas e, gradualmente, as refinam em imagens limpas. O REPA adiciona uma etapa que compara as representações geradas durante esse processo de remoção de ruído com as representações do DINOv2. Em seguida, ele projeta o estado oculto do modelo de difusão nas representações do DINOv2.
Os pesquisadores afirmam que o REPA não apenas melhora a eficiência do treinamento, mas também a qualidade das imagens geradas. Testes com várias arquiteturas de modelos de difusão mostraram melhorias significativas: 1. Redução do tempo de treinamento em até 17,5 vezes; 2. Sem perda na qualidade da imagem de saída; 3. Melhor desempenho em métricas padrão de qualidade de imagem.
Por exemplo, o modelo SiT-XL usando o REPA atingiu o objetivo que um modelo tradicional levaria 7 milhões de etapas para alcançar, em apenas 400.000 etapas de treinamento. Os pesquisadores acreditam que este é um passo importante em direção a sistemas de geração de imagens de IA mais poderosos e eficientes.
A tecnologia REPA traz novas esperanças para a velocidade de treinamento e a qualidade de saída dos modelos de geração de imagens de IA. Com o desenvolvimento e a aplicação contínuos dessa tecnologia, podemos esperar ver mais inovações e avanços.