Aujourd'hui, l'équipe Tongyi d'Alibaba Cloud a officiellement lancé le nouveau modèle de récompense de processus de raisonnement mathématique Qwen2.5-Math-PRM. Ce modèle est disponible en deux tailles, 72B et 7B, et ses performances surpassent de manière significative celles des modèles de récompense de processus open source similaires, notamment en matière de détection des erreurs de raisonnement.

La version 7B de Qwen2.5-Math-PRM a étonnamment dépassé le très populaire GPT-4o, une réalisation qui marque une avancée majeure d'Alibaba Cloud dans le développement de modèles de raisonnement. Afin d'évaluer complètement les performances du modèle en raisonnement mathématique, l'équipe Tongyi a également publié le premier standard d'évaluation au niveau des étapes : ProcessBench. Ce standard d'évaluation comprend 3400 cas de test de problèmes mathématiques, incluant des problèmes de niveau compétition internationale des Olympiades mathématiques. Chaque cas a été annoté par des experts humains avec un processus de raisonnement détaillé, garantissant la scientificité et l'exhaustivité de l'évaluation.

image.png

L'évaluation des performances de Qwen2.5-Math-PRM sur ProcessBench a révélé que les modèles de taille 72B et 7B ont tous deux obtenu d'excellents résultats. En particulier, la version 7B a non seulement surpassé les modèles open source de même taille, mais a même dépassé GPT-4o-0806, un modèle propriétaire, sur certains aspects. Cela démontre l'énorme potentiel des modèles de récompense de processus (PRM) pour améliorer la fiabilité du raisonnement et ouvre de nouvelles perspectives pour le développement futur des techniques de supervision des processus de raisonnement.

image.png

Ce travail innovant de l'équipe Tongyi d'Alibaba Cloud a non seulement fait progresser les techniques de raisonnement en intelligence artificielle, mais a également fourni une précieuse référence aux autres développeurs du secteur. Grâce à l'open source, l'équipe Tongyi espère partager son expérience avec un plus grand nombre de chercheurs et contribuer au progrès technologique de l'ensemble du secteur.