Une équipe de chercheurs de l'Université de New York, du MIT et de Google a récemment proposé un cadre innovant visant à résoudre les problèmes d'extensibilité du temps d'inférence des modèles de diffusion. Cette recherche révolutionnaire va au-delà des méthodes traditionnelles consistant simplement à augmenter le nombre d'étapes de débruitage, ouvrant ainsi de nouvelles voies pour améliorer les performances des modèles génératifs.
Ce cadre se développe principalement sur deux axes : l'utilisation d'un validateur pour fournir un retour d'information et la mise en œuvre d'un algorithme pour trouver de meilleurs candidats de bruit. L'équipe de recherche a utilisé un modèle SiT-XL pré-entraîné avec une résolution de 256×256 comme base, et a innocemment introduit des ressources de calcul supplémentaires dédiées à l'opération de recherche tout en maintenant 250 étapes de débruitage fixes.
Pour le système de validation, la recherche a utilisé deux « Oracle Verifier » : l'Inception Score (IS) et la Fréchet Inception Distance (FID). L'IS utilise un modèle InceptionV3 pré-entraîné pour sélectionner la probabilité de classification la plus élevée, tandis que le FID vise à minimiser la différence par rapport aux statistiques des caractéristiques Inception d'ImageNet pré-calculées.
Les résultats expérimentaux montrent que ce cadre offre d'excellentes performances dans plusieurs tests de référence. Dans les tests DrawBench, l'évaluation par LLM Grader a confirmé que la méthode de validation par recherche permet d'améliorer continuellement la qualité des échantillons. En particulier, ImageReward et Verifier Ensemble ont réalisé des progrès significatifs sur tous les indicateurs, grâce à leurs capacités d'évaluation précises et à leur forte cohérence avec les préférences humaines.
Cette recherche confirme non seulement l'efficacité des méthodes d'extension de calcul basées sur la recherche, mais met également en lumière les biais inhérents aux différents validateurs, ouvrant ainsi la voie au développement futur de systèmes de validation plus spécialisés pour les tâches de génération visuelle. Cette découverte est d'une importance capitale pour améliorer les performances globales des modèles de génération IA.