Turtle Benchmark

评估大型语言模型的逻辑推理和上下文理解能力。

普通产品编程基准测试逻辑推理
Turtle Benchmark是一款基于'Turtle Soup'游戏的新型、无法作弊的基准测试,专注于评估大型语言模型(LLMs)的逻辑推理和上下文理解能力。它通过消除对背景知识的需求,提供了客观和无偏见的测试结果,具有可量化的结果,并且通过使用真实用户生成的问题,使得模型无法被'游戏化'。
打开网站

Turtle Benchmark 最新流量情况

月总访问量

503747431

跳出率

37.31%

平均页面访问数

5.7

平均访问时长

00:06:44

Turtle Benchmark 访问量趋势

Turtle Benchmark 访问地理位置分布

Turtle Benchmark 流量来源

Turtle Benchmark 替代品