Une récente étude menée par l'Institut israélien de technologie révèle que les grands modèles linguistiques (LLM) pourraient posséder des connaissances plus vastes que ce qu'ils ne laissent paraître. Les chercheurs ont découvert que la représentation interne des LLM encode des informations sur l'exactitude de leurs réponses, même lorsqu'ils produisent des réponses erronées. Ils sont capables d'identifier la bonne réponse en interne.
L'équipe de recherche s'est concentrée sur l'analyse des erreurs des LLM dans la génération de longs textes, un scénario plus proche de leurs applications réelles. Ils ont créé un jeu de données de détection d'erreurs en comparant les réponses générées par le modèle aux réponses correctes. Ceci leur a permis d'étudier l'emplacement des signaux de véracité codés dans la représentation interne des LLM.
Contrairement aux études précédentes qui se concentraient sur le dernier jeton généré ou sur la moyenne, l'étude a révélé que l'information de véracité est concentrée dans les « jetons de réponse précise », c'est-à-dire les jetons dont la modification altère la correction de la réponse. Par exemple, pour la question « Quelle est la capitale du Connecticut ? », le jeton de réponse précise est « Hartford ».
Pour identifier ces jetons de réponse précise, les chercheurs ont utilisé un algorithme externe capable d'extraire la réponse précise des longues réponses du modèle. Les résultats expérimentaux montrent que tous les LLM évalués sont capables d'extraire la réponse précise de leur propre sortie.
Grâce à des expériences menées sur différents modèles et jeux de données, les chercheurs ont constaté que l'utilisation des jetons de réponse précise améliore considérablement les performances des méthodes de détection d'erreurs, notamment lors de l'exploration de la représentation interne du modèle.
Plus surprenant encore, même lorsque le modèle ne montre pas de préférence pour la bonne réponse lors de la génération, le détecteur arrive à identifier efficacement la bonne réponse. Cela indique une déconnexion significative entre l'encodage interne et le comportement externe du LLM. Même si le modèle connaît la bonne réponse en interne, il peut toujours fournir une réponse incorrecte lors de la génération du texte.
Cette recherche a une importance considérable pour l'analyse et l'amélioration des erreurs des LLM. En comprenant mieux la façon dont les signaux de véracité sont codés dans la représentation interne des LLM, il est possible de développer des méthodes plus efficaces de détection et de correction d'erreurs, améliorant ainsi la fiabilité et l'utilité des LLM.
Adresse de l'article : https://arxiv.org/pdf/2410.02707