Auf einer Pressekonferenz am 19. Dezember 2024 gaben das ZHIYUAN-Institut und Tencent die Einführung von LongBench v2 bekannt. Dies ist ein Benchmark-Test, der speziell entwickelt wurde, um das tiefe Verständnis und die Schlussfolgerungsfähigkeit großer Sprachmodelle (LLMs) in realen, langtextbasierten Multitasking-Szenarien zu bewerten. Die Plattform zielt darauf ab, Fortschritte bei der Verarbeitung und dem Verständnis von Langtexten zu fördern und die aktuellen Herausforderungen bei der Anwendung von LLMs für Langtexte zu adressieren.

Zu den bemerkenswerten Merkmalen von LongBench v2 gehören die Unterstützung längerer Texte (8k bis 2 Millionen Wörter) und 503 herausfordernde Multiple-Choice-Fragen (vier Antwortmöglichkeiten). Die Schwierigkeit ist so hoch, dass selbst menschliche Experten eine durchschnittliche Genauigkeit von nur 53,7 % innerhalb von 15 Minuten erreichen. Darüber hinaus umfasst der Benchmark sechs Hauptkategorien, darunter Fragen und Antworten zu einzelnen Dokumenten, Fragen und Antworten zu mehreren Dokumenten und kontextuelles Lernen mit Langtexten, um ein breites Anwendungsspektrum abzudecken.

微信截图_20241220160723.png

Um die Zuverlässigkeit der Bewertung zu gewährleisten, werden in LongBench v2 alle Fragen als Multiple-Choice-Fragen gestellt und durchlaufen einen strengen Prozess der manuellen Annotation und Überprüfung. Für die Datenerhebung wurden Annotationsexperten von führenden Universitäten rekrutiert, um die Qualität und Schwierigkeit der Fragen zu sichern. Durch die Einführung von Kontrollvariablen wurde der ursprüngliche Bradley-Terry-Algorithmus verbessert, um den Einfluss von Störfaktoren zu reduzieren und ein wissenschaftlicheres und genaueres Modellranking zu ermöglichen.

Bei den Bewertungsergebnissen wurden 10 Open-Source-LLMs und 6 proprietäre LLMs getestet. Es zeigte sich, dass die Leistung der Modelle nach der Einführung von Kontrollvariablen deutlich verbessert wurde. Insbesondere das GPT-4o-Modell zeigte nach der Einführung weiterer Inferenzschritte bei Aufgaben wie Fragen und Antworten zu mehreren Dokumenten und kontextuellem Lernen mit Langtexten eine hervorragende Leistung, was die Bedeutung der Inferenzfähigkeit unterstreicht.

LongBench v2 bietet nicht nur ein neues Werkzeug zur Bewertung großer Sprachmodelle, sondern weist auch den Weg für zukünftige Forschung und betont die Bedeutung der Verbesserung des Verständnisses und der Schlussfolgerungsfähigkeit der Modelle selbst. Die Zusammenarbeit zwischen dem ZHIYUAN-Institut und Tencent markiert eine weitere Entwicklung im Bereich der KI-Technologie. Es wird erwartet, dass dieser Benchmark die Fortschritte in der Technologie des Langtextverständnisses und der Inferenz vorantreiben wird.

Homepage: https://longbench2.github.io

Forschungsarbeit: https://arxiv.org/abs/2412.15204

Daten und Code: https://github.com/THUDM/LongBench