Récemment, une équipe de recherche de Google DeepMind, en collaboration avec plusieurs universités, a proposé une nouvelle méthode, nommée modèle de récompense générative (GenRM), visant à améliorer la précision et la fiabilité des IA génératives dans les tâches de raisonnement.
Les IA génératives sont largement utilisées dans de nombreux domaines, notamment le traitement du langage naturel, principalement en prédisant le mot suivant d'une série de mots pour générer un texte cohérent. Cependant, ces modèles peuvent parfois générer des informations erronées avec confiance, ce qui pose un problème majeur, surtout dans des domaines exigeant une grande précision comme l'éducation, la finance et la santé.
Actuellement, pour pallier les difficultés liées à la précision des sorties des modèles d'IA générative, les chercheurs ont essayé différentes solutions. Parmi elles, les modèles de récompense discriminatifs (RMs) sont utilisés pour juger de la justesse des réponses potentielles en fonction d'un score, mais cette méthode ne tire pas pleinement parti des capacités de génération des grands modèles de langage (LLM). Une autre méthode courante consiste à utiliser un « LLM comme évaluateur », mais son efficacité est souvent inférieure à celle d'un vérificateur professionnel pour les tâches de raisonnement complexes.
L'innovation de GenRM réside dans la redéfinition du processus de vérification comme une tâche de prédiction du mot suivant. Contrairement aux modèles de récompense discriminatifs traditionnels, GenRM intègre les capacités de génération de texte des LLM dans le processus de vérification, permettant au modèle de générer et d'évaluer simultanément les solutions potentielles. De plus, GenRM prend en charge le raisonnement en chaîne (CoT), c'est-à-dire que le modèle peut générer des étapes de raisonnement intermédiaires avant d'arriver à une conclusion finale, rendant ainsi le processus de vérification plus complet et systématique.
En combinant génération et vérification, GenRM utilise une stratégie d'entraînement unifiée, permettant au modèle d'améliorer simultanément ses capacités de génération et de vérification pendant l'entraînement. En pratique, le modèle génère des étapes de raisonnement intermédiaires utilisées pour valider la réponse finale.
Les chercheurs ont constaté que le modèle GenRM a obtenu d'excellents résultats dans plusieurs tests rigoureux. Par exemple, dans les tâches de résolution de problèmes mathématiques préscolaires et algorithmiques, la précision de GenRM a été significativement améliorée. Comparé aux modèles de récompense discriminatifs et aux LLM utilisés comme évaluateurs, le taux de réussite de GenRM a augmenté de 16 % à 64 %.
Par exemple, lors de la vérification des sorties du modèle Gemini 1.0 Pro, GenRM a fait passer le taux de réussite de la résolution de problèmes de 73 % à 92,8 %.
Le lancement de la méthode GenRM marque une avancée majeure dans le domaine de l'IA générative. En unifiant la génération et la vérification des solutions en un seul processus, elle améliore considérablement la précision et la fiabilité des solutions générées par l'IA.
Points clés :
1. 🌟 GenRM améliore les capacités de raisonnement de l'IA générative en redéfinissant le processus de vérification comme une tâche de prédiction du mot suivant.
2. 📈 GenRM a obtenu d'excellents résultats dans plusieurs tests, avec une précision supérieure de 16 % à 64 % par rapport aux méthodes traditionnelles.
3. 🧠 Cette méthode intègre la génération et la vérification, améliorant le potentiel d'application de l'IA dans les domaines à haut risque.