Turtle Benchmark
Bewertung der logischen Schlussfolgerungs- und Kontextverständnisfähigkeiten großer Sprachmodelle.
Normales ProduktProgrammierungBenchmarkLogisches Schließen
Turtle Benchmark ist ein neuer, manipulationssicherer Benchmark basierend auf dem Spiel 'Turtle Soup', der sich auf die Bewertung der logischen Schlussfolgerungs- und Kontextverständnisfähigkeiten großer Sprachmodelle (LLMs) konzentriert. Durch den Verzicht auf Hintergrundwissen liefert er objektive und unverfälschte Testergebnisse mit quantifizierbaren Ergebnissen. Die Verwendung von Fragen, die von echten Nutzern generiert wurden, verhindert ein 'Gaming' des Systems.
Turtle Benchmark Neueste Verkehrssituation
Monatliche Gesamtbesuche
474564576
Absprungrate
36.20%
Durchschnittliche Seiten pro Besuch
6.1
Durchschnittliche Besuchsdauer
00:06:34