Humanity's Last Exam

Humanity's Last Exam 是一个用于衡量大型语言模型能力的多模态基准测试。

普通产品其他基准测试多模态
Humanity's Last Exam 是一个由全球专家合作开发的多模态基准测试,旨在衡量大型语言模型在学术领域的表现。它包含来自 50 个国家超过 500 个机构的近 1000 名专家贡献的 3000 个问题,覆盖超过 100 个学科。该测试旨在成为最终的封闭式学术基准,通过挑战模型的极限来推动人工智能技术的发展。其主要优点是难度高,能够有效评估模型在复杂学术问题上的表现。
打开网站

Humanity's Last Exam 最新流量情况

月总访问量

202439

跳出率

64.00%

平均页面访问数

1.9

平均访问时长

00:03:36

Humanity's Last Exam 访问量趋势

Humanity's Last Exam 访问地理位置分布

Humanity's Last Exam 流量来源

Humanity's Last Exam 替代品