Google DeepMind et le MIT (Massachusetts Institute of Technology) ont récemment publié une découverte majeure. L'équipe de recherche a développé un nouveau modèle autorégressif, "Fluid", qui a réalisé des progrès révolutionnaires dans le domaine de la génération d'images à partir de texte. Les performances de ce modèle sont exceptionnelles, notamment lorsqu'il est étendu à 10,5 milliards de paramètres.

Cette recherche bouleverse les idées reçues. Auparavant, bien que les modèles autorégressifs dominent le traitement du langage, ils étaient considérés comme inférieurs aux modèles de diffusion tels que Stable Diffusion et Google Imagen3 pour la génération d'images. Les chercheurs ont considérablement amélioré les performances et l'extensibilité des modèles autorégressifs grâce à l'introduction innovante de deux éléments clés : l'utilisation de jetons continus au lieu de jetons discrets, et l'introduction d'un ordre de génération aléatoire au lieu d'un ordre fixe.

image.png

En termes de traitement de l'information visuelle, les jetons continus présentent un avantage significatif. Les jetons discrets traditionnels codent les zones d'image en tant que codes provenant d'un vocabulaire limité, ce qui entraîne inévitablement une perte d'information, même pour les grands modèles, rendant difficile la génération précise de détails tels que des yeux symétriques. Les jetons continus permettent de conserver des informations plus précises, améliorant ainsi considérablement la qualité de la reconstruction de l'image.

L'équipe de recherche a également innové dans l'ordre de génération des images. Les modèles autorégressifs traditionnels génèrent généralement les images selon un ordre fixe, de gauche à droite et de haut en bas. Les chercheurs ont expérimenté une méthode d'ordre aléatoire, permettant au modèle de prédire plusieurs pixels à des emplacements arbitraires à chaque étape. Cette méthode excelle dans les tâches nécessitant une bonne compréhension de la structure globale de l'image, obtenant un avantage significatif dans le benchmark GenEval qui mesure la correspondance entre le texte et l'image générée.

Les performances réelles du modèle Fluid confirment la valeur de la recherche. Étendu à 10,5 milliards de paramètres, Fluid surpasse les modèles existants dans plusieurs benchmarks importants. Il est remarquable qu'un petit modèle Fluid de seulement 369 millions de paramètres ait atteint le score FID (7,23) sur le jeu de données MS-COCO, un score comparable à celui du modèle Parti de 20 milliards de paramètres.

Ces résultats de recherche suggèrent que les modèles autorégressifs comme Fluid pourraient devenir une alternative viable aux modèles de diffusion. Contrairement aux modèles de diffusion qui nécessitent de multiples passages avant et arrière, Fluid ne nécessite qu'un seul passage pour générer une image. Cet avantage en termes d'efficacité sera encore plus marqué avec l'augmentation de la taille des modèles.