Eine aktuelle Studie des Technion – Israel Institute of Technology zeigt, dass große Sprachmodelle (LLMs) möglicherweise „mehr wissen“, als sie zeigen. Die Forscher fanden heraus, dass die interne Repräsentation von LLMs Informationen über die Richtigkeit ihrer Ausgabe kodiert, selbst wenn sie letztendlich falsche Antworten liefern. Sie können intern die richtige Antwort identifizieren.

Das Forschungsteam konzentrierte sich auf die Fehler von LLMs bei der Generierung langer Texte, was der realen Anwendungssituation näher kommt. Sie erstellten einen Datensatz zur Fehlererkennung, indem sie die vom Modell generierten Antworten mit den korrekten Antworten verglichen und so die Position der in der internen Repräsentation des LLMs kodierten Wahrheitssignale untersuchten.

image.png

Im Gegensatz zu früheren Studien, die sich auf das letzte generierte Token oder Durchschnittswerte konzentrierten, fanden sie heraus, dass sich die Wahrheitsinformationen auf die „präzisen Antwort-Token“ konzentrieren – also auf die Token, deren Änderung die Richtigkeit der Antwort beeinflusst. Bei der Frage „Was ist die Hauptstadt von Connecticut?“ ist das präzise Antwort-Token beispielsweise „Hartford“.

Um präzise Antwort-Token zu identifizieren, verwendeten die Forscher einen externen Algorithmus, der die präzisen Antworten aus den langen Antworten des Modells extrahieren konnte. Die Ergebnisse zeigten, dass alle bewerteten LLMs die präzisen Antworten aus ihren eigenen Ausgaben extrahieren konnten.

Durch Experimente mit verschiedenen Modellen und Datensätzen stellten die Forscher fest, dass die Verwendung präziser Antwort-Token die Leistung von Fehlererkennungsmethoden deutlich verbessert, insbesondere bei der Erkennung interner Repräsentationen des Modells.

Noch überraschender ist, dass der Detektor die richtige Antwort effektiv identifizieren konnte, selbst wenn das Modell während der Generierung keine Präferenz für die richtige Antwort zeigte. Dies deutet auf eine erhebliche Diskrepanz zwischen der internen Kodierung und dem externen Verhalten des LLMs hin: Selbst wenn das Modell die richtige Antwort intern kennt, kann es im tatsächlich generierten Text dennoch eine falsche Antwort liefern.

Diese Studie ist von großer Bedeutung für die Fehleranalyse und -verbesserung von LLMs. Durch ein tieferes Verständnis der Kodierung von Wahrheitssignalen in der internen Repräsentation von LLMs können effizientere Methoden zur Fehlererkennung und -korrektur entwickelt werden, um die Zuverlässigkeit und Praktikabilität von LLMs zu verbessern.

论文地址:https://arxiv.org/pdf/2410.02707