A OpenAI recentemente anunciou uma tecnologia inovadora chamada sCM (modelo de consistência simplificado, estável e escalável), uma inovação que revoluciona a maneira como os modelos de imagem de IA são treinados. Essa tecnologia representa um avanço significativo em relação aos modelos de consistência (CMs) existentes, abrindo novas possibilidades para a geração rápida de imagens.
Principais vantagens da tecnologia:
Gera imagens de alta qualidade em apenas duas etapas de cálculo
Gera uma imagem em apenas 0,11 segundos em uma GPU A100
50 vezes mais rápido do que os modelos de difusão tradicionais
Modelo com até 1,5 bilhão de parâmetros, um novo recorde
Em testes práticos, o sCM apresentou resultados impressionantes. Obteve uma pontuação FID de 2,06 no conjunto de dados CIFAR-10 e um excelente resultado de 1,88 na geração de imagens de 512x512 pixels no ImageNet. Esses indicadores são apenas cerca de 10% inferiores aos melhores modelos de difusão existentes, mas com uma velocidade significativamente superior.
A chave para essa inovação tecnológica reside na solução de problemas fundamentais dos modelos de consistência tradicionais. Os modelos anteriores utilizavam passos de tempo discretos, exigindo parâmetros adicionais e propensos a erros. A equipe de pesquisa da OpenAI, por meio da construção de uma estrutura teórica simplificada, unificou vários métodos, identificando e resolvendo com sucesso as principais causas da instabilidade do treinamento.
Ainda mais promissor é o enorme potencial de escalabilidade dessa tecnologia. A OpenAI treinou com sucesso um modelo com 1,5 bilhão de parâmetros no conjunto de dados ImageNet, uma façanha inédita para modelos semelhantes. A pesquisa descobriu que, à medida que o tamanho do modelo aumenta, a qualidade da imagem melhora continuamente, o que sugere a possibilidade de treinar modelos ainda maiores no futuro.