Récemment, des chercheurs d'Apple ont mené une étude approfondie sur les capacités de raisonnement mathématique des grands modèles linguistiques (LLM), et ont présenté un nouveau benchmark appelé GSM-Symbolic.

Ce nouveau benchmark est une évolution de GSM8K, principalement utilisé pour évaluer les compétences mathématiques de base. Bien que de nombreux LLM aient montré des améliorations sur GSM8K, la communauté scientifique reste sceptique quant à leurs capacités de raisonnement, estimant que les indicateurs d'évaluation actuels ne reflètent peut-être pas pleinement leurs capacités réelles. L'étude a révélé que les LLM s'appuient souvent sur la correspondance de modèles probabilistes plutôt que sur un véritable raisonnement logique, les rendant très sensibles aux petites variations des données d'entrée.

image.png

Dans cette nouvelle étude, les chercheurs ont utilisé des modèles symboliques pour générer une variété de problèmes mathématiques, offrant ainsi une évaluation plus fiable. Les résultats expérimentaux montrent que les performances des LLM diminuent considérablement lorsque la valeur numérique ou la complexité des problèmes augmente. De plus, l'ajout d'informations apparemment pertinentes mais en réalité non pertinentes peut entraîner une baisse de performance allant jusqu'à 65 %. Ces résultats confirment une fois de plus que les LLM se fient davantage à la correspondance de modèles qu'à un raisonnement logique formel lors du raisonnement.

L'ensemble de données GSM8K contient plus de 8000 problèmes mathématiques adaptés au niveau scolaire. Sa popularité a engendré certains risques, tels que la contamination des données et les fluctuations de performance dues à de petites variations des problèmes. Pour relever ces défis, GSM-Symbolic permet un meilleur contrôle de la diversité des problèmes. Ce benchmark a évalué plus de 20 modèles ouverts et fermés, en utilisant 5000 échantillons issus de 100 modèles, révélant ainsi des informations précieuses et des limites des capacités de raisonnement mathématique des LLM.

Des expériences préliminaires montrent que les performances des différents modèles sur GSM-Symbolic varient considérablement, le taux de précision global étant inférieur à celui rapporté sur GSM8K. L'étude explore en outre l'impact de la modification des noms de variables et des valeurs numériques sur les LLM. Les résultats indiquent que les variations numériques ont un impact plus important sur les performances. De plus, la complexité des problèmes influe directement sur la précision, les problèmes complexes entraînant une baisse significative des performances. Ces résultats suggèrent que les modèles s'appuient peut-être davantage sur la correspondance de modèles que sur de véritables capacités de raisonnement lorsqu'ils traitent des problèmes mathématiques.

Cette étude souligne les limites de l'évaluation actuelle de GSM8K et présente le nouveau benchmark GSM-Symbolic, conçu pour évaluer les capacités de raisonnement mathématique des LLM. Globalement, les résultats de l'étude montrent que les LLM doivent encore améliorer leurs capacités de raisonnement logique pour traiter les problèmes complexes.

Article : https://arxiv.org/abs/2410.05229

Points clés :

🧮 Les chercheurs présentent un nouveau benchmark, GSM-Symbolic, pour évaluer les capacités de raisonnement mathématique des LLM.

📉 Les LLM obtiennent de moins bons résultats lorsqu'ils traitent des problèmes mathématiques complexes, se fiant à la correspondance de modèles plutôt qu'au raisonnement logique.

📊 L'étude révèle des différences de performance significatives entre les différents modèles sur le nouveau benchmark, appelant à une amélioration des méthodes d'évaluation.