Das Aufkommen großer Sprachmodelle (LLMs), insbesondere die Verbreitung von Anwendungen wie ChatGPT, hat die Mensch-Maschine-Interaktion grundlegend verändert. Diese Modelle können kohärente und umfassende Texte generieren, was beeindruckend ist. Trotz ihrer Leistungsfähigkeit neigen LLMs jedoch zu „Halluzinationen“, d. h. sie erzeugen scheinbar realistische, aber tatsächlich erfundene, sinnlose oder zum Prompt nicht passende Inhalte.

image.png

Forscher der Harvard University haben das Phänomen der LLM-„Halluzinationen“ eingehend untersucht und festgestellt, dass dessen Ursache im Funktionsmechanismus der LLMs liegt. LLMs erstellen durch maschinelles Lernen aus riesigen Textdatenmengen ein Wahrscheinlichkeitsmodell und prognostizieren das nächste Wort basierend auf der Wahrscheinlichkeit des gemeinsamen Auftretens von Wörtern. Mit anderen Worten: LLMs verstehen die Bedeutung von Sprache nicht wirklich, sondern treffen Vorhersagen basierend auf statistischen Wahrscheinlichkeiten.

Die Forscher vergleichen LLMs mit „Crowdsourcing“ und argumentieren, dass LLMs im Wesentlichen einen „Netzwerk-Konsens“ ausgeben. Ähnlich wie Plattformen wie Wikipedia oder Reddit extrahieren LLMs Informationen aus großen Textdatenmengen und generieren die häufigsten Antworten. Da die Sprache hauptsächlich zur Beschreibung der Welt verwendet wird, sind die von LLMs generierten Antworten in der Regel korrekt.

Bei der Bearbeitung von vagen, kontroversen oder konsenslosen Themen treten jedoch „Halluzinationen“ auf. Um diese Hypothese zu überprüfen, haben die Forscher eine Reihe von Experimenten durchgeführt, um die Leistung verschiedener LLMs bei der Bearbeitung verschiedener Themen zu testen. Die Ergebnisse zeigten, dass LLMs bei der Bearbeitung gängiger Themen gute Leistungen erbringen, bei der Bearbeitung vager oder kontroverser Themen jedoch die Genauigkeit deutlich abnimmt.

Diese Studie zeigt, dass LLMs zwar leistungsstarke Werkzeuge sind, ihre Genauigkeit jedoch von der Qualität und Quantität der Trainingsdaten abhängt. Bei der Verwendung von LLMs, insbesondere bei der Bearbeitung vager oder kontroverser Themen, sollte man die Ergebnisse mit Vorsicht behandeln. Diese Studie liefert auch Anhaltspunkte für die zukünftige Entwicklung von LLMs, nämlich die Verbesserung der Fähigkeit von LLMs, vage und kontroverse Themen zu verarbeiten, und die Erhöhung der Interpretierbarkeit ihrer Ergebnisse.

论文地址:https://dl.acm.org/doi/pdf/10.1145/3688007