Kürzlich sind große Sprachmodelle (LLMs) mit sehr langen Kontextfenstern in den Mittelpunkt der Diskussion gerückt. Diese Modelle können in einer einzigen Anfrage Hunderttausende oder sogar Millionen von Tokens verarbeiten und eröffnen Entwicklern viele neue Möglichkeiten. Aber wie gut verstehen und nutzen diese LLMs mit langem Kontext die riesigen Informationsmengen, die ihnen zur Verfügung gestellt werden?

Um diese Frage zu beantworten, haben Forscher von Google DeepMind einen neuen Benchmark namens Michelangelo entwickelt, der die Fähigkeiten im Umgang mit langen Kontexten bewertet.

Die Ergebnisse zeigen, dass aktuelle Top-Modelle zwar Fortschritte beim Extrahieren von Informationen aus großen Kontextmengen gemacht haben, aber bei Aufgaben, die Schlussfolgerungen und das Verständnis von Datenstrukturen erfordern, immer noch Schwierigkeiten haben.

Mit dem Aufkommen von LLMs mit langen Kontextfenstern wurde den Forschern klar, dass neue Benchmarks zur Bewertung der Fähigkeiten dieser Modelle notwendig sind. Bisherige Bewertungen konzentrierten sich hauptsächlich auf Aufgaben der Informationsbeschaffung, wie z. B. die Suche nach einer „Nadel im Heuhaufen“, d. h. das Auffinden spezifischer Informationen in einem großen Kontext. Einfaches Abrufen ist jedoch nicht gleichbedeutend mit dem Verständnis des gesamten Kontexts durch das Modell.

Um diese Probleme zu lösen, schlägt Michelangelo eine völlig neue Bewertungsmethode vor, die komplexe Aufgaben stellt, die das Modell zu tieferen Schlussfolgerungen und einer umfassenderen Verarbeitung langer Texte zwingen. Der Bewertungsrahmen umfasst beispielsweise mehrere Aufgaben im Zusammenhang mit Programmierung und natürlicher Sprache, die nicht nur das Gedächtnis des Modells, sondern auch sein tiefes Verständnis und seine Verarbeitung von Informationen testen.

Bei den Bewertungsaufgabe von Michelangelo muss das Modell drei grundlegende Aufgaben zur Zusammenfassung langer Dokumente lösen: „Latente Listen“, „Mehrstufige Koreferenzauflösung“ und verschiedene andere Anwendungsszenarien. Diese Aufgaben helfen nicht nur bei der Bewertung der Leistung des Modells bei langen Dokumenten, sondern zeigen auch dessen Schwächen in Bezug auf Schlussfolgerungen und Zusammenfassungen auf.

Die erste Aufgabe ist „Latente Listen“: Das Modell muss eine lange Reihe von Operationen an einer Python-Liste verarbeiten, irrelevante oder redundante Anweisungen herausfiltern und den endgültigen Zustand der Liste bestimmen.

Die zweite Aufgabe ist die „Mehrstufige Koreferenzauflösung“: Das Modell muss in einem langen Dialog die Dialogstruktur verstehen und Referenzprobleme lösen.

Die dritte Aufgabe ist „Ich weiß es nicht“: Bei Multiple-Choice-Fragen muss das Modell beurteilen, ob der Kontext die Antwort enthält, und korrekt mit „Ich weiß es nicht“ antworten.

Die Forscher haben zehn führende LLMs (einschließlich verschiedener Versionen von Gemini, GPT-4 und Claude) auf Michelangelo bewertet und die Modelle in Kontexten mit bis zu 1 Million Tokens getestet. Das Gemini-Modell schnitt beim MRCR am besten ab, das GPT-Modell bei „Latente Listen“ und Claude 3.5 Sonnet bei „IDK“.

image.png

Die Forscher stellten fest, dass die Modelle zwar unterschiedlich gut mit langen Kontexten umgehen können, ihre Gesamtleistung bei komplexeren Schlussfolgerungsaufgaben jedoch deutlich abnimmt.

Dies bedeutet, dass selbst bei sehr langen Kontextfenstern die aktuellen LLMs in Bezug auf ihre Schlussfolgerungsfähigkeit noch Verbesserungsbedarf haben.

Die Forscher planen, das Michelangelo-Bewertungsprojekt weiter auszubauen und es für andere Forscher zugänglich zu machen, damit diese ihre Modelle testen können.

Link zur Veröffentlichung: https://arxiv.org/abs/2409.12640

Wichtigste Punkte:

🔍 Der neue Benchmark Michelangelo für LLMs mit langem Kontext dient zur Bewertung der Schlussfolgerungsfähigkeit der Modelle.

🧩 Die Studie zeigt, dass bestehende Modelle bei komplexen Schlussfolgerungsaufgaben eine deutlich geringere Leistung aufweisen.

📈 Die Forscher planen, das Bewertungsprojekt zu erweitern, um die weitere Erforschung der Schlussfolgerungsfähigkeit von Modellen zu fördern.