llm-colosseum
通过街霸3对战评估大型语言模型
普通产品编程基准测试街霸3
llm-colosseum是一个创新的基准测试工具,它使用街霸3游戏来评估大型语言模型(LLM)的实时决策能力。与传统的基准测试不同,这个工具通过模拟实际游戏场景来测试模型的快速反应、智能策略、创新思维、适应性和恢复力。
llm-colosseum 最新流量情况
月总访问量
515580771
跳出率
37.20%
平均页面访问数
5.8
平均访问时长
00:06:42
通过街霸3对战评估大型语言模型
月总访问量
515580771
跳出率
37.20%
平均页面访问数
5.8
平均访问时长
00:06:42