RULER

一种用于测试长文本语言模型的合理性的评估基准

普通产品生产力长文本语言模型
RULER 是一种新的合成基准,为长文本语言模型提供了更全面的评估。它扩展了普通检索测试,涵盖了不同类型和数量的信息点。此外,RULER 引入了新的任务类别,如多跳跟踪和聚合,以测试超出检索从上下文中的行为。在 RULER 上评估了 10 个长文本语言模型,并在 13 个代表性任务中获得了表现。尽管这些模型在普通检索测试中取得了几乎完美的准确性,但在上下文长度增加时,它们表现得非常差。只有四个模型(GPT-4、Command-R、Yi-34B 和 Mixtral)在长度为 32K 时表现得相当不错。我们公开源 RULER,以促进对长文本语言模型的全面评估。
打开网站

RULER 最新流量情况

月总访问量

20899836

跳出率

46.04%

平均页面访问数

5.2

平均访问时长

00:04:57

RULER 访问量趋势

RULER 访问地理位置分布

RULER 流量来源

RULER 替代品