L'équipe de recherche de Google DeepMind a récemment réalisé une percée majeure en développant une technologie innovante appelée SCoRe (Self-Correction through Reinforcement Learning, autocorrection par apprentissage par renforcement). Cette technologie vise à résoudre le défi de longue date de l'autocorrection difficile des grands modèles linguistiques (LLM), permettant d'identifier et de corriger les erreurs sans recourir à plusieurs modèles ou à une vérification externe.
Le cœur de la technologie SCoRe réside dans son approche en deux phases. La première phase optimise l'initialisation du modèle afin qu'il puisse générer une correction lors de la deuxième tentative, tout en maintenant une similitude entre la réponse initiale et le modèle de base. La deuxième phase utilise un apprentissage par renforcement multi-étapes pour apprendre au modèle comment améliorer les première et deuxième réponses. L'originalité de cette méthode réside dans l'utilisation exclusive de données d'entraînement auto-générée ; le modèle crée ses propres exemples en résolvant des problèmes et en essayant d'améliorer ses solutions.
Lors de tests pratiques, SCoRe a démontré une amélioration significative des performances. Des tests effectués avec les modèles Gemini 1.0 Pro et 1.5 Flash de Google ont montré une amélioration de 15,6 % de la capacité d'autocorrection dans les tâches de raisonnement mathématique du benchmark MATH. Dans les tâches de génération de code de HumanEval, les performances se sont améliorées de 9,1 %. Ces résultats montrent que SCoRe a réalisé des progrès substantiels dans l'amélioration de la capacité d'autocorrection des modèles d'IA.
Les chercheurs soulignent que SCoRe est la première méthode à réaliser une autocorrection interne positive significative, permettant au modèle d'améliorer ses réponses sans rétroaction externe. Cependant, la version actuelle de SCoRe ne réalise qu'une seule itération d'entraînement d'autocorrection ; les recherches futures pourraient explorer la possibilité de plusieurs étapes de correction.
Cette recherche de l'équipe DeepMind révèle une idée importante : enseigner des méta-stratégies telles que l'autocorrection nécessite de dépasser les méthodes d'entraînement standard des modèles linguistiques. L'apprentissage par renforcement multi-étapes ouvre de nouvelles possibilités dans le domaine de l'IA, et devrait conduire au développement de systèmes d'IA plus intelligents et plus fiables.
Cette technologie révolutionnaire met non seulement en lumière le potentiel d'auto-amélioration de l'IA, mais offre également de nouvelles pistes pour résoudre les problèmes de fiabilité et de précision des grands modèles linguistiques, et pourrait avoir un impact profond sur le développement futur des applications d'IA.