Récemment, des chercheurs de l'Université de Californie à Los Angeles et d'Amazon ont mené une analyse approfondie des capacités de raisonnement des grands modèles de langage (LLM). Pour la première fois, ils ont systématiquement distingué les raisonnements inductif et déductif, explorant les défis que ces deux types de raisonnement posent aux systèmes d'IA.
Source : Image générée par IA, fournisseur de services d'autorisation d'images : Midjourney
Le raisonnement inductif consiste à déduire des lois générales à partir d'observations spécifiques, tandis que le raisonnement déductif applique des règles générales à des cas particuliers. L'objectif de l'étude était de déterminer quel type de raisonnement représente le défi le plus important pour les grands modèles de langage. À cette fin, l'équipe de recherche a développé une nouvelle méthode, appelée « SolverLearner ». Cette méthode permet au modèle d'apprendre une fonction à partir d'un petit nombre d'exemples, en mappant les entrées aux sorties. Ensuite, un programme externe utilise cette fonction, évitant ainsi toute confusion avec le raisonnement déductif.
Les résultats de l'étude montrent que les modèles linguistiques tels que GPT-4 excellent en raisonnement inductif, atteignant une précision proche de 100 % avec la méthode « SolverLearner ». Cependant, en matière de raisonnement déductif, en particulier pour les tâches « contre-factuelles », les modèles se montrent moins performants. Par exemple, les modèles réussissent bien les tâches arithmétiques en base dix, mais rencontrent des difficultés avec d'autres systèmes numériques. De plus, ils montrent une certaine rigidité lorsqu'il s'agit d'analyser des phrases dont l'ordre des mots est inhabituel ou dont l'orientation spatiale est modifiée.
Les chercheurs concluent que le raisonnement déductif représente un défi majeur pour les LLM actuels. L'application correcte des règles apprises dépend souvent de la fréquence d'apparition de ces tâches pendant le processus d'entraînement. Bien que des méthodes d'invite telles que la « chaîne de pensée » puissent améliorer légèrement les capacités de raisonnement déductif des modèles, les résultats restent insatisfaisants. Il est à noter que le nouveau modèle o1 d'OpenAI, récemment publié, n'a pas participé à ces tests.
Une autre étude, menée par des chercheurs de l'Université d'État de l'Ohio et de l'Université Carnegie Mellon, a examiné les capacités de raisonnement logique des modèles Transformer. Ils ont étudié si les modèles pouvaient acquérir des inférences implicites par « grokking », notamment dans les tâches de combinaison et de comparaison.
Les résultats montrent que ces modèles peuvent effectivement acquérir des inférences implicites après un entraînement prolongé, mais seulement dans les tâches de comparaison, ils sont capables de généraliser à des exemples inédits. Les chercheurs soulignent que cette différence est liée à la structure interne des circuits appris et suggèrent d'adapter l'architecture Transformer afin d'espérer une amélioration de la qualité dans les expérimentations futures.
Points clés :
🌟 Les LLM excellent en raisonnement inductif, avec une précision proche de 100 %.
🧩 Le raisonnement déductif reste un défi, en particulier pour les tâches contre-factuelles.
🔍 Une autre étude montre que les modèles Transformer peuvent acquérir des capacités d'inférence implicite dans les tâches de combinaison, mais avec une capacité de généralisation limitée.