Im Bereich der Verarbeitung natürlicher Sprache stellt das Verständnis langer Kontexte eine anhaltende Herausforderung dar. Obwohl große Sprachmodelle (LLMs) in verschiedenen Sprach-Aufgaben hervorragende Leistungen zeigen, sind sie oft eingeschränkt, wenn es darum geht, Texte zu verarbeiten, die über die Größe ihres Kontextfensters hinausgehen. Um diese Einschränkung zu überwinden, arbeiten Forscher kontinuierlich an der Verbesserung der Fähigkeit von LLMs, lange Texte zu verstehen. Dies ist nicht nur für die akademische Forschung von großer Bedeutung, sondern auch für reale Anwendungen wie domänenspezifisches Wissensverständnis, die Generierung langer Dialoge, langer Geschichten oder Codes.

In dieser Studie stellen die Autoren einen neuen Benchmark vor – LooGLE (Long Context Generic Language Evaluation) – der speziell zur Bewertung des Langkontextverständnisses von LLMs entwickelt wurde. Dieser Benchmark umfasst 776 sehr lange Dokumente aus dem Jahr 2022 und danach, wobei jedes Dokument durchschnittlich 19.300 Wörter enthält. Es gibt 6448 Testinstanzen, die verschiedene Bereiche abdecken, darunter Wissenschaft, Geschichte, Sport, Politik, Kunst, Ereignisse und Unterhaltung.

image.png

Merkmale von LooGLE

Sehr lange, reale Dokumente: Die Dokumente in LooGLE sind deutlich länger als die Kontextfenstergrößen der meisten LLMs, was von den Modellen erfordert, sich längere Texte zu merken und zu verstehen.

Manuell entworfene Aufgaben mit kurzen und langen Abhängigkeiten: Der Benchmark umfasst sieben Hauptaufgaben, darunter Aufgaben mit kurzen und langen Abhängigkeiten, um die Fähigkeit von LLMs zur Verarbeitung von Abhängigkeiten unterschiedlicher Länge zu bewerten.

Relativ neue Dokumente: Alle Dokumente wurden nach 2022 veröffentlicht. Dies stellt sicher, dass die meisten modernen LLMs diese Dokumente während des Pretrainings nicht gesehen haben, was eine genauere Bewertung ihrer Fähigkeit zum Kontextlernen ermöglicht.

Domänenübergreifende, allgemeine Daten: Die Daten des Benchmarks stammen aus populären Open-Source-Dokumenten wie arXiv-Artikeln, Wikipedia-Einträgen, Film- und Drehbüchern.

Die Forscher haben acht der fortschrittlichsten LLMs umfassend bewertet. Die Ergebnisse zeigen folgende wichtige Erkenntnisse:

Kommerzielle Modelle übertreffen Open-Source-Modelle in Bezug auf die Leistung.

LLMs zeigen hervorragende Leistungen bei Aufgaben mit kurzen Abhängigkeiten, haben aber bei komplexeren Aufgaben mit langen Abhängigkeiten Schwierigkeiten.

Kontextbasierte Lern- und Denkkettenmethoden bieten nur begrenzte Verbesserungen beim Verständnis langer Kontexte.

Retrieval-basierte Techniken zeigen einen deutlichen Vorteil bei der Beantwortung kurzer Fragen, während Strategien zur Erweiterung der Kontextfensterlänge durch optimierte Transformer-Architekturen oder Positionskodierungen nur einen begrenzten Einfluss auf das Verständnis langer Kontexte haben.

Der LooGLE-Benchmark bietet nicht nur ein systematisches und umfassendes Bewertungsschema für LLMs mit langem Kontext, sondern liefert auch Anleitungen für die zukünftige Entwicklung von Modellen mit „wirklich langem Kontextverständnis“. Der gesamte Bewertungscode wurde auf GitHub veröffentlicht und steht der Forschungsgemeinschaft zur Verfügung.

论文地址:https://arxiv.org/pdf/2311.04939

代码地址:https://github.com/bigai-nlco/LooGLE