Des chercheurs de l'Université de Princeton et de l'Université Yale ont récemment publié un rapport sur les capacités de raisonnement « chaîne de pensée » (CoT) des grands modèles linguistiques (LLM), révélant les mystères de la raisonnement CoT : il ne repose pas uniquement sur le raisonnement symbolique basé sur des règles logiques, mais intègre plusieurs facteurs tels que la mémoire, la probabilité et le raisonnement bruité.

Les chercheurs ont utilisé le décryptage du chiffrement par décalage comme tâche de test pour analyser les performances de trois LLM : GPT-4, Claude 3 et Llama 3.1. Le chiffrement par décalage est une méthode de codage simple où chaque lettre est remplacée par la lettre située un nombre fixe de positions plus loin dans l'alphabet. Par exemple, en décalant l'alphabet de 3 positions, « CAT » devient « FDW ».

image.png

Les résultats de la recherche montrent que trois facteurs clés influencent l'efficacité du raisonnement CoT :

Probabilité : Les LLM ont tendance à générer des sorties plus probables, même si les étapes de raisonnement pointent vers une réponse moins probable. Par exemple, si les étapes de raisonnement pointent vers « STAZ », mais que « STAY » est un mot plus courant, le LLM peut se « corriger » et produire « STAY ».

Mémoire : Les LLM ont mémorisé une grande quantité de données textuelles lors de leur pré-entraînement, ce qui peut affecter la précision de leur raisonnement CoT. Par exemple, rot-13 est le chiffrement par décalage le plus courant, et les LLM ont un taux de précision nettement supérieur sur rot-13 que sur d'autres types de chiffrements par décalage.

Raisonnement bruité : Le processus de raisonnement des LLM n'est pas entièrement précis et comporte un certain niveau de bruit. À mesure que le décalage du chiffrement par décalage augmente, le nombre d'étapes intermédiaires nécessaires au décodage augmente également, et l'influence du raisonnement bruité devient plus importante, entraînant une baisse de la précision des LLM.

Les chercheurs ont également constaté que le raisonnement CoT des LLM repose sur l'auto-conditionnement, c'est-à-dire que les LLM doivent générer explicitement du texte comme contexte pour les étapes de raisonnement ultérieures. Si les LLM reçoivent l'instruction de « réfléchir en silence » sans produire de texte, leurs capacités de raisonnement diminuent considérablement. De plus, l'efficacité des étapes de démonstration n'a pas d'impact significatif sur le raisonnement CoT, même si les étapes de démonstration contiennent des erreurs, l'efficacité du raisonnement CoT des LLM peut rester stable.

Cette recherche montre que le raisonnement CoT des LLM n'est pas un raisonnement symbolique parfait, mais qu'il intègre plusieurs facteurs tels que la mémoire, la probabilité et le raisonnement bruité. Les LLM montrent à la fois les caractéristiques d'un maître de la mémoire et d'un expert en probabilité dans le processus de raisonnement CoT. Cette recherche nous aide à mieux comprendre les capacités de raisonnement des LLM et fournit des informations précieuses pour le développement futur de systèmes d'IA plus puissants.

Adresse de l'article : https://arxiv.org/pdf/2407.01687