llm-colosseum

通过街霸3对战评估大型语言模型

普通产品编程基准测试街霸3
llm-colosseum是一个创新的基准测试工具,它使用街霸3游戏来评估大型语言模型(LLM)的实时决策能力。与传统的基准测试不同,这个工具通过模拟实际游戏场景来测试模型的快速反应、智能策略、创新思维、适应性和恢复力。
打开网站

llm-colosseum 最新流量情况

月总访问量

494758773

跳出率

37.69%

平均页面访问数

5.7

平均访问时长

00:06:29

llm-colosseum 访问量趋势

llm-colosseum 访问地理位置分布

llm-colosseum 流量来源

llm-colosseum 替代品