Récemment, des chercheurs du Mila Institute, de Google DeepMind et des Microsoft Research ont mené une enquête approfondie sur les capacités de raisonnement des modèles linguistiques d'IA, découvrant des lacunes significatives chez les modèles petits et peu coûteux lorsqu'il s'agit de résoudre des problèmes complexes.
Cette recherche s'appuie sur un test nommé « GSM combiné », conçu pour évaluer les performances de ces modèles dans la résolution de problèmes mathématiques de base enchaînés.
Source : Image générée par IA, fournisseur de services d'autorisation d'images : Midjourney
Les chercheurs ont combiné deux problèmes du jeu de données GSM8K, utilisant la réponse au premier problème comme variable pour le second. Les résultats montrent que la plupart des modèles sont bien en deçà des attentes dans ces tâches de raisonnement complexes, particulièrement chez les modèles de petite taille. Bien que les petits modèles obtiennent des scores similaires aux grands modèles sur les tests mathématiques standard comme GSM8K, l'écart logique augmente considérablement dans le nouveau test combiné, atteignant un facteur de 2 à 12.
Prenons l'exemple de GPT-4o mini : ses performances dans le nouveau test sont très inférieures à celles de GPT-4o, bien qu'ils soient presque équivalents dans les tests de référence initiaux. Des modèles comme Gemini et LLAMA3 présentent des résultats similaires. L'étude montre que ces petits modèles, bien qu'ils puissent identifier les schémas superficiels dans les tâches courantes, ont des difficultés à appliquer ces connaissances dans de nouveaux contextes.
L'étude a également révélé des défauts même chez les petits modèles spécialement conçus pour les mathématiques. Par exemple, Qwen2.5-Math-7B-IT obtient plus de 80 % aux problèmes de mathématiques de niveau lycée difficiles, mais son taux de réussite est inférieur à 60 % pour les problèmes mathématiques de base enchaînés. Pour les modèles plus petits, l'optimisation par instructions, bien qu'elle améliore considérablement les performances dans le test GSM8K initial, n'apporte qu'une amélioration minime dans le test GSM combiné.
Cette étude n'est pas tout à fait la plus récente, car le modèle d'optimisation logique o1 récemment lancé par OpenAI n'a pas été inclus dans les tests. Bien qu'il y ait des indications que o1 présente une amélioration significative des capacités de planification, l'étude montre que les humains restent supérieurs en termes de vitesse et d'élégance dans la résolution de problèmes mathématiques. Le modèle Gemini de Google a également démontré des capacités mathématiques améliorées après une récente mise à jour.
Les chercheurs soulignent que les méthodes d'évaluation existantes peuvent masquer les différences systématiques entre ces modèles, conduisant à une surestimation des capacités des petits modèles. Ils appellent à une réévaluation des stratégies de développement des systèmes d'IA peu coûteux, remettant en question les limitations inhérentes de ces modèles en matière de raisonnement complexe et de capacité de généralisation. Cette recherche offre un aperçu plus approfondi des limites des systèmes d'IA.
Points clés :
📉 Les petits modèles linguistiques d'IA affichent de mauvaises performances dans la résolution de problèmes mathématiques enchaînés, avec un écart logique pouvant atteindre un facteur 12.
🧮 Même les petits modèles spécialement conçus pour les mathématiques ont un taux de réussite inférieur à 60 % sur les problèmes de base.
🔍 Les méthodes d'évaluation actuelles surestiment probablement les capacités des petits modèles. Une révision des stratégies de développement est nécessaire.