L'équipe de recherche Groundlight, constamment dédiée à permettre aux IA de comprendre le monde, a récemment fait une annonce majeure : la publication en open source d'un tout nouveau framework d'IA ! Ce framework vise à surmonter un défi majeur dans le domaine de la vision : le raisonnement visuel complexe, permettant aux IA non seulement de « reconnaître les images », mais aussi de déduire des informations plus profondes, à la manière de Sherlock Holmes.

Nous savons tous que les IA actuelles excellent dans la reconnaissance des chats et des chiens, mais lorsqu'il s'agit de comprendre les relations logiques sous-jacentes aux images et d'effectuer des raisonnements plus complexes, elles sont souvent confrontées à des difficultés. Les chercheurs de Groundlight soulignent que les modèles linguistiques visuels (VLM) actuels, ayant déjà des difficultés à comprendre les images elles-mêmes, peinent encore plus à accomplir des tâches nécessitant une interprétation approfondie.

QQ_1742194787910.png

Bien que les grands modèles linguistiques (LLM) aient réalisé des progrès considérables dans le raisonnement textuel, les percées similaires dans le domaine de la vision restent limitées. Les VLM existants affichent souvent de mauvaises performances lorsqu'il s'agit de combiner des indices visuels et textuels pour effectuer des déductions logiques, ce qui met en évidence une lacune majeure dans leurs capacités. La simple identification des objets sur une image est loin d'être suffisante ; la compréhension des relations entre les objets et du contexte est essentielle.

L'apprentissage par renforcement au secours, GRPO pour un « cerveau surpuissant »

Pour améliorer les capacités de raisonnement visuel des VLM, l'équipe de recherche Groundlight a adopté une approche originale en utilisant l'apprentissage par renforcement et en exploitant de manière innovante GRPO (Gradient Ratio Policy Optimization) pour accroître l'efficacité de l'apprentissage.

Les recherches précédentes, telles que les travaux de Deepseek et les raisonnements avancés des modèles linguistiques, ont rarement étendu ces techniques au domaine des VLM. Pour valider leur méthode, les chercheurs ont conçu une tâche de décryptage de code nécessitant le traitement simultané d'informations visuelles et textuelles. Le modèle devait utiliser une image de décodeur générée aléatoirement pour interpréter les informations codées. Finalement, un modèle ne comportant que 3 milliards de paramètres a atteint une précision de 96 % ! L'analyse de l'attention montre que le modèle s'engage activement avec les données visuelles lors de la résolution de la tâche, en se concentrant sur les zones pertinentes du décodeur.

L'entraînement des VLM avec GRPO n'a pas été sans difficulté, notamment en ce qui concerne la tokenisation et la conception de la récompense. Comme les modèles traitent généralement le texte sous forme de jetons (tokens) et non de caractères individuels, des difficultés peuvent survenir pour les tâches nécessitant un raisonnement précis au niveau des caractères.

Pour atténuer ce problème, les chercheurs ont ajouté des espaces entre les lettres des messages afin de simplifier le processus de décodage. La conception de la récompense est un autre aspect crucial, car les modèles d'apprentissage par renforcement ont besoin d'un feedback bien structuré pour apprendre efficacement. Les chercheurs ont utilisé trois types de récompenses : une récompense de formatage pour garantir la cohérence de la sortie, une récompense de décodage pour encourager une conversion significative du texte brouillé et une récompense de correction pour améliorer la précision. En équilibrant soigneusement ces récompenses, les chercheurs ont réussi à éviter que le modèle n'apprenne des « raccourcis » inattendus, garantissant ainsi une véritable amélioration de sa capacité de décryptage.

GRPO optimise le processus d'apprentissage en comparant plusieurs sorties au lieu de s'appuyer sur le calcul direct du gradient, ce qui confère une plus grande stabilité à l'entraînement. En générant plusieurs réponses pour chaque requête et en les évaluant mutuellement, cette méthode permet d'obtenir une courbe d'apprentissage plus lisse. Cette étude souligne également le potentiel des VLM dans les tâches basées sur le raisonnement, tout en reconnaissant le coût de calcul élevé des modèles visuels complexes.

Pour résoudre le problème de l'efficacité, ils ont proposé des techniques telles que la mise à niveau sélective des modèles, c'est-à-dire l'utilisation de modèles plus coûteux uniquement en cas d'ambiguïté. De plus, ils suggèrent l'intégration de modèles pré-entraînés de détection d'objets, de segmentation et d'estimation de profondeur afin d'améliorer les capacités de raisonnement sans augmenter significativement les coûts de calcul. Cette approche basée sur des outils offre une alternative évolutive à l'entraînement de grands modèles de bout en bout, soulignant l'importance de l'équilibre entre efficacité et précision.

L'équipe Groundlight a réalisé des progrès significatifs dans l'amélioration des VLM grâce à l'intégration de techniques d'apprentissage par renforcement, en particulier GRPO. Ils ont testé leur méthode sur une tâche de décryptage de code, et le modèle a démontré une précision impressionnante.

Projet : https://github.com/groundlight/r1_vlm

Démo : https://huggingface.co/spaces/Groundlight/grpo-vlm-decoder