RULER
Ein Bewertungsmaßstab zur Überprüfung der Angemessenheit großer Sprachmodelle für lange Texte.
Normales ProduktProduktivitätLange TexteSprachmodell
RULER ist ein neuer, synthetischer Benchmark, der eine umfassendere Bewertung großer Sprachmodelle für lange Texte ermöglicht. Er erweitert herkömmliche Retrieval-Tests und umfasst unterschiedliche Typen und Mengen an Informationspunkten. Darüber hinaus führt RULER neue Aufgabentypen wie Multi-Hop-Tracking und Aggregation ein, um Verhaltensweisen über das reine Retrieval aus dem Kontext hinaus zu testen. 10 große Sprachmodelle für lange Texte wurden auf RULER evaluiert und in 13 repräsentativen Aufgaben bewertet. Obwohl diese Modelle in herkömmlichen Retrieval-Tests nahezu perfekte Genauigkeit erzielten, zeigten sie bei zunehmender Kontextlänge eine deutlich schlechtere Performance. Nur vier Modelle (GPT-4, Command-R, Yi-34B und Mixtral) zeigten bei einer Länge von 32K eine zufriedenstellende Leistung. Wir veröffentlichen RULER als Open Source, um eine umfassende Bewertung großer Sprachmodelle für lange Texte zu fördern.
RULER Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44