Un nouveau framework open source innovant, nommé OpenR, a récemment été lancé. Il vise à résoudre les faiblesses des grands modèles linguistiques (LLM) dans les tâches de raisonnement complexes. Développé conjointement par des chercheurs de l'University College de Londres, de l'Université de Liverpool, de l'Université Jiao Tong de Shanghai, de l'Université de Science et Technologie de Hong Kong (Guangzhou) et de l'Université de Westlake, ce framework ouvre de nouvelles voies pour améliorer les capacités de raisonnement des LLM grâce à la combinaison du calcul au moment de l'exécution, de l'apprentissage par renforcement et de la supervision du processus.

Bien que les LLM aient fait des progrès remarquables dans la génération de langage, ils restent confrontés à des défis lorsqu'il s'agit de tâches complexes telles que les mathématiques, la programmation et les problèmes scientifiques. OpenR est conçu pour combler cette lacune, étendant les capacités des LLM de la simple génération de texte à des domaines de raisonnement plus avancés.

La conception d'OpenR s'inspire en partie du modèle o1 d'OpenAI, mais son objectif est plus ambitieux : non seulement reproduire les capacités de raisonnement des modèles linguistiques avancés, mais aussi les dépasser. Première solution open source offrant un support de raisonnement aussi complexe, OpenR se concentre sur l'acquisition de données, les modèles de récompense de processus et les méthodes d'inférence efficaces, afin d'accélérer le développement des grands modèles linguistiques axés sur le raisonnement.

Métavers, science-fiction, cyberpunk, grand modèle (2) peinture

Source : L'image a été générée par une IA, Midjourney.

La structure principale du framework est basée sur l'augmentation des données, l'apprentissage des stratégies et l'orientation de l'inférence combinée à l'exploration multi-chemins. OpenR utilise le processus de décision markovien (MDP) pour modéliser les tâches de raisonnement, décomposant le processus de raisonnement complexe en une série d'étapes évaluables et optimisables. Cette approche permet non seulement de cultiver directement les compétences de raisonnement, mais aussi d'explorer plusieurs chemins de raisonnement à chaque étape, améliorant ainsi considérablement la robustesse du processus de raisonnement.

Une autre caractéristique clé du framework est le modèle de récompense de processus (PRM), qui fournit un retour d'information détaillé sur les étapes intermédiaires du raisonnement, permettant au modèle d'ajuster ses décisions plus précisément, et non pas seulement en se basant sur l'évaluation du résultat final. Cette orientation granulaire améliore considérablement l'efficacité de l'apprentissage du modèle.

Lors des tests réels, OpenR a démontré des performances remarquables. En utilisant l'ensemble de données MATH comme référence, la précision du raisonnement d'OpenR a été améliorée d'environ 10 % par rapport aux méthodes traditionnelles. L'étude a également révélé que les méthodes d'exploration multi-chemins telles que « Best-of-N » et « Beam Search » sont nettement supérieures aux techniques de vote majoritaire simple, notamment lorsque les ressources de calcul sont limitées.

Les techniques d'apprentissage par renforcement d'OpenR, en particulier celles utilisant le PRM, ont démontré d'excellentes performances dans les scénarios d'apprentissage en ligne, favorisant l'amélioration continue des capacités de raisonnement des LLM. Ce résultat montre que, grâce à des stratégies d'apprentissage soigneusement conçues, les LLM ont le potentiel de réaliser des progrès révolutionnaires dans les tâches de raisonnement complexes.

En tant que plateforme open source, OpenR offre aux chercheurs et aux développeurs des ressources précieuses pour faire progresser ensemble les capacités de raisonnement des modèles linguistiques. Il fournit non seulement une voie de mise à niveau pour les LLM actuels, mais ouvre également la voie à des systèmes d'IA plus intelligents et plus capables de raisonner à l'avenir.

À l'avenir, l'équipe OpenR prévoit d'étendre davantage les fonctionnalités du framework pour couvrir un éventail plus large de types de tâches de raisonnement et d'optimiser continuellement son processus d'inférence. Ces efforts devraient contribuer de manière significative à la réalisation de l'objectif à long terme d'un agent d'IA de raisonnement auto-améliorant.

Adresse du projet : https://github.com/facebook/openr