Avez-vous déjà remarqué que les modèles d'images entraînés avec d'énormes quantités de données sont incroyablement lents lorsqu'il s'agit de générer des images de haute qualité ? Ne vous inquiétez pas, Luma AI a récemment open-sourcé une technique de pré-entraînement de modèles d'images appelée Inductive Moment Matching (IMM), qui permettrait aux modèles de générer des images de haute qualité à une vitesse fulgurante, un véritable turbocompresseur pour votre processus de création !

Un blocage algorithmique ? Luma AI pulvérise le plafond de verre

Ces dernières années, la communauté de l'IA a constaté un certain ralentissement dans le pré-entraînement génératif. Malgré l'augmentation constante des données, l'innovation algorithmique stagne. Luma AI estime que le problème ne réside pas dans le manque de données, mais dans l'incapacité des algorithmes à exploiter pleinement leur potentiel. C'est comme posséder une mine d'or et ne l'exploiter qu'avec une pioche : l'efficacité est déplorable.

Pour briser ce « plafond de verre algorithmique », Luma AI s'est concentré sur l'optimisation des calculs lors de l'inférence. Au lieu de se focaliser sur l'augmentation de la capacité des modèles, l'entreprise a cherché à accélérer la phase d'inférence. IMM, un algorithme axé sur la vitesse, est né de cette réflexion !

QQ_1741763781543.png

IMM : une inférence agile et rapide

Mais quel est le secret d'IMM pour une telle accélération ?

La clé réside dans sa conception rétrograde de l'algorithme de pré-entraînement, axée sur l'efficacité de l'inférence. Les modèles de diffusion traditionnels fonctionnent comme des artistes minutieux, effectuant des ajustements précis étape par étape. Même les modèles les plus puissants nécessitent de nombreuses étapes pour obtenir les meilleurs résultats. IMM, quant à lui, est comparable à un artiste doté de la capacité de téléportation. Pendant l'inférence, le réseau ne se concentre pas seulement sur l'étape actuelle, mais aussi sur l'étape cible.

Imaginez un modèle de diffusion traditionnel générant une image comme s'il explorait un labyrinthe pas à pas. IMM, lui, voit directement la sortie du labyrinthe et peut « sauter » plus efficacement, réduisant ainsi considérablement le nombre d'étapes nécessaires. Cette conception ingénieuse rend chaque itération plus expressive, sans être limitée par l'interpolation linéaire.

Plus impressionnant encore, IMM intègre la maximum mean discrepancy (MMD), une technique de correspondance de moments éprouvée, qui agit comme un système de navigation précis pour ces « sauts », garantissant que le modèle progresse avec précision vers un objectif de haute qualité.

Dix fois plus rapide, une qualité supérieure !

La preuve par l'expérience. Luma AI a démontré la puissance d'IMM par le biais d'une série d'expériences :

  • Sur le jeu de données ImageNet256x256, IMM a atteint un score FID de 1,99 avec 30 fois moins d'étapes d'échantillonnage que les modèles de diffusion (2,27 FID) et Flow Matching (2,15 FID). Une performance incroyablement rapide et de meilleure qualité !
  • Sur le jeu de données standard CIFAR-10, IMM a obtenu un score FID de 1,98 avec seulement 2 étapes d'échantillonnage, atteignant le meilleur niveau pour ce jeu de données. Deux étapes ! Vous avez bien entendu !

Au-delà de sa vitesse, IMM se distingue par sa stabilité d'entraînement. En comparaison, les modèles de cohérence peuvent être instables pendant le pré-entraînement et nécessitent une conception particulière des hyperparamètres. IMM est plus « fiable » et s'entraîne de manière stable avec divers hyperparamètres et architectures de modèles.

Il est important de noter qu'IMM ne repose pas sur l'appariement de scores de débruitage ou les équations différentielles stochastiques basées sur les scores, contrairement aux modèles de diffusion. Luma AI estime que la véritable avancée ne réside pas seulement dans la correspondance de moments en elle-même, mais dans sa perspective axée sur l'inférence. Cette approche leur a permis d'identifier les limites des paradigmes de pré-entraînement existants et de concevoir des algorithmes innovants capables de les surmonter.

Luma AI est optimiste quant à l'avenir d'IMM, considérant cela comme un simple début, annonciateur d'un nouveau paradigme pour les modèles de base multimodaux dépassant les limites actuelles. L'entreprise espère libérer pleinement le potentiel de l'intelligence créative.

Référentiel GitHub : https://github.com/lumalabs/imm