Récemment, une équipe de chercheurs du Massachusetts Institute of Technology (MIT) a mené une étude approfondie sur les grands modèles de langage (LLM), explorant leurs performances sur différentes tâches. Ils ont constaté que, bien que ces modèles semblent excellents sur certaines tâches courantes, leurs capacités de raisonnement sont souvent surestimées, en particulier lorsqu'ils sont confrontés à des situations inconnues.

Un robot IA jouant à un jeu

Source : Image générée par IA, fournisseur de services d'autorisation d'images Midjourney

L'équipe de recherche a principalement comparé les « tâches par défaut » et les « scénarios contre-factuels ». Les tâches par défaut sont les tâches couramment utilisées pour l'entraînement et les tests des modèles, tandis que les scénarios contre-factuels sont des situations hypothétiques qui s'écartent de ces conditions par défaut. Afin de tester les performances des modèles dans différentes situations, les chercheurs ont conçu une série de défis en modifiant les tâches existantes, afin d'observer leurs véritables capacités.

Les résultats de l'étude montrent que les LLM s'en sortent bien dans des environnements familiers, mais que leurs performances chutent considérablement lorsque la tâche est légèrement modifiée et qu'ils entrent en territoire inconnu. Par exemple, lors du traitement d'opérations arithmétiques, les modèles obtiennent de bons résultats en système décimal, mais leurs performances deviennent instables, voire inférieures à une simple estimation aléatoire, lorsqu'ils passent à d'autres systèmes de numération.

Au-delà de l'arithmétique, l'étude a porté sur plusieurs domaines, notamment les accords musicaux, le raisonnement spatial et les échecs. Les joueurs humains sont capables de déterminer la légalité des mouvements même si l'état du plateau est légèrement modifié, tandis que les modèles sont confrontés à un défi de taille. Cela montre que les LLM, dans ces tâches, ne reposent pas uniquement sur leurs capacités de raisonnement logique intrinsèques, mais qu'ils mémorisent souvent le contenu des données d'entraînement.

L'auteur principal de l'étude du MIT a déclaré : « Nous avons constaté que les grands modèles de langage fonctionnent bien dans des scénarios familiers, comme s'ils marchaient sur un chemin bien tracé, mais qu'ils deviennent impuissants lorsque l'environnement devient inconnu. » Les conclusions de cette recherche ont des implications importantes pour la conception future des modèles, notamment pour améliorer leur adaptabilité et leur capacité à gérer des scénarios diversifiés.

Bien que cette étude fournisse des informations importantes, elle présente certaines limites. L'étude s'est concentrée sur des tâches et des environnements spécifiques, sans couvrir tous les défis que les modèles pourraient rencontrer dans des applications du monde réel. Par conséquent, les travaux futurs pourraient nécessiter d'élargir la portée des tâches et les environnements de test afin de découvrir d'autres faiblesses potentielles.

En résumé, cette étude offre un nouveau point de vue sur la compréhension des capacités des grands modèles de langage et ouvre la voie à des recherches futures, notamment en ce qui concerne l'amélioration de la robustesse et de la capacité de généralisation des modèles. Alors que l'intelligence artificielle est de plus en plus utilisée dans nos vies, il est essentiel de comprendre et d'améliorer l'adaptabilité de ces modèles.