Uma equipe de pesquisa da Universidade de Nova York, MIT e Google recentemente apresentou uma estrutura inovadora para resolver o gargalo de tempo de inferência em modelos de difusão. Esta pesquisa inovadora vai além dos métodos tradicionais de simplesmente aumentar as etapas de denoising, abrindo novas vias para melhorar o desempenho dos modelos geradores.
A estrutura se concentra principalmente em duas dimensões: usar um verificador para fornecer feedback e implementar um algoritmo para encontrar melhores candidatos a ruído. Usando um modelo SiT-XL pré-treinado com resolução de 256×256 como base, a equipe de pesquisa introduziu inovadoramente recursos computacionais adicionais dedicados à operação de busca, mantendo 250 etapas fixas de denoising.
Para o sistema de verificação, a pesquisa empregou dois verificadores Oracle: Inception Score (IS) e Fréchet Inception Distance (FID). O IS usa um modelo InceptionV3 pré-treinado para selecionar a probabilidade de classificação mais alta, enquanto o FID visa minimizar a diferença em relação às estatísticas de recursos Inception do ImageNet pré-computadas.
Os resultados experimentais mostram que a estrutura se destaca em vários testes de referência. No teste DrawBench, a avaliação do LLM Grader confirmou que o método de verificação de busca melhora consistentemente a qualidade da amostra. Em particular, o ImageReward e o Verifier Ensemble mostraram melhorias significativas em todos os indicadores, graças à sua capacidade de avaliação precisa e alta concordância com as preferências humanas.
Esta pesquisa não apenas confirma a eficácia do método de expansão computacional baseado em busca, mas também revela o viés inerente de diferentes verificadores, apontando o caminho para o desenvolvimento futuro de sistemas de verificação mais especializados para tarefas de geração visual. Esta descoberta é de grande importância para melhorar o desempenho geral dos modelos de geração de IA.