OpenAI a récemment dévoilé une technologie révolutionnaire nommée sCM (modèle de cohérence simplifié, stable et évolutif), une innovation qui bouleverse radicalement la manière dont les modèles d'images IA sont entraînés. Cette technologie représente une avancée majeure par rapport aux modèles de cohérence (CM) existants, ouvrant de nouvelles perspectives pour la génération rapide d'images.

Avantages clés de la technologie :

Génération d'images de haute qualité en seulement deux étapes de calcul

Génération d'une image en seulement 0,11 seconde sur un GPU A100

Vitesse multipliée par 50 par rapport aux modèles de diffusion traditionnels

Modèle atteignant 1,5 milliard de paramètres, un nouveau record

image.png

Lors de tests réels, les performances de sCM ont été remarquables. Il a obtenu un score FID de 2,06 sur l'ensemble de données CIFAR-10 et un excellent score de 1,88 lors de la génération d'images de 512x512 pixels sur ImageNet. Ces indicateurs ne sont inférieurs que d'environ 10 % à ceux des meilleurs modèles de diffusion existants, mais la vitesse représente un progrès considérable.

La clé de cette innovation technologique réside dans la résolution de problèmes fondamentaux des modèles de cohérence traditionnels. Les modèles précédents utilisaient des pas de temps discrets, nécessitant des paramètres supplémentaires et étant sujets aux erreurs. L'équipe de recherche d'OpenAI, grâce à l'établissement d'un cadre théorique simplifié, a unifié diverses méthodes, identifiant et résolvant avec succès les principales causes de l'instabilité de l'entraînement.

Plus prometteur encore, cette technologie présente un fort potentiel d'évolutivité. OpenAI a réussi à entraîner un modèle de 1,5 milliard de paramètres sur l'ensemble de données ImageNet, une première pour ce type de modèle. Les recherches ont montré que la qualité de l'image s'améliore continuellement avec l'augmentation de la taille du modèle, ce qui laisse présager la possibilité d'entraîner des modèles de plus grande envergure à l'avenir.