Récemment, les chercheurs de l'équipe Qwen d'Alibaba ont lancé un nouveau benchmark appelé « PROCESSBENCH », visant à évaluer la capacité des modèles linguistiques à identifier les erreurs de processus dans le raisonnement mathématique. Alors que les modèles linguistiques progressent de manière significative dans les tâches de raisonnement complexes, les chercheurs ont constaté que, malgré d'excellentes performances, ils rencontrent encore des difficultés avec certains problèmes ardus. Le développement d'une méthode de supervision efficace est donc crucial.

image.png

Actuellement, les benchmarks d'évaluation des modèles linguistiques présentent certaines lacunes. D'une part, certains ensembles de problèmes sont devenus trop simples pour les modèles avancés. D'autre part, les méthodes d'évaluation existantes ne fournissent souvent qu'une évaluation binaire de la justesse, sans annotations détaillées des erreurs. Ceci souligne le besoin urgent d'un cadre d'évaluation plus complet pour examiner plus en profondeur les mécanismes de raisonnement des modèles linguistiques complexes.

Pour combler cette lacune, les chercheurs ont conçu « PROCESSBENCH », un benchmark axé sur l'identification des étapes erronées dans le raisonnement mathématique. Ses principes de conception incluent la difficulté des problèmes, la diversité des solutions et une évaluation complète. Le benchmark cible des problèmes de mathématiques de niveau compétition et olympique, utilisant plusieurs modèles linguistiques open source pour générer des solutions illustrant différentes méthodes de résolution. PROCESSBENCH contient 3400 cas de test soigneusement annotés par plusieurs experts humains, garantissant la qualité des données et la fiabilité de l'évaluation.

image.png

Lors du développement, l'équipe de recherche a collecté des problèmes de mathématiques provenant de quatre ensembles de données renommés (GSM8K, MATH, OlympiadBench et Omni-MATH), assurant ainsi une couverture de difficultés allant de l'école primaire aux compétitions. Ils ont utilisé des modèles open source pour générer jusqu'à 12 solutions différentes afin d'augmenter la diversité des solutions. De plus, pour uniformiser le format des étapes de résolution, l'équipe a utilisé une méthode de reformatage pour garantir un raisonnement étape par étape logiquement cohérent.

Les résultats de la recherche montrent que les modèles de récompense de processus existants ont de mauvaises performances face aux problèmes difficiles, notamment sur les ensembles de problèmes plus simples où les modèles d'évaluation pilotés par invites se démarquent. La recherche révèle les limites des modèles existants dans l'évaluation du raisonnement mathématique, en particulier lorsqu'un modèle arrive à la bonne réponse par des étapes intermédiaires erronées, ce qui rend difficile une évaluation précise.

PROCESSBENCH, en tant que benchmark pionnier pour évaluer la capacité des modèles linguistiques à identifier les erreurs de raisonnement mathématique, fournit un cadre important pour les recherches futures, stimulant la compréhension et l'amélioration de l'IA dans le processus de raisonnement.

Lien vers l'article : https://github.com/QwenLM/ProcessBench?tab=readme-ov-file

Code : https://github.com/QwenLM/ProcessBench?tab=readme-ov-file

Points clés :

🌟 L'équipe de recherche a lancé un nouveau benchmark, « PROCESSBENCH », pour évaluer la capacité des modèles linguistiques à identifier les erreurs dans le raisonnement mathématique.

📊 PROCESSBENCH contient 3400 cas de test, couvrant des problèmes de mathématiques de différents niveaux de difficulté et soigneusement annotés par des experts.

🔍 La recherche a révélé que les modèles de récompense de processus existants ont de mauvaises performances sur les problèmes difficiles, nécessitant une amélioration urgente de leurs stratégies d'identification des erreurs.