llm-colosseum

通过街霸3对战评估大型语言模型

普通产品编程基准测试街霸3

打开网站

llm-colosseum是一个创新的基准测试工具，它使用街霸3游戏来评估大型语言模型（LLM）的实时决策能力。与传统的基准测试不同，这个工具通过模拟实际游戏场景来测试模型的快速反应、智能策略、创新思维、适应性和恢复力。

该产品主要面向人工智能研究者和开发者，尤其是那些对语言模型的实时决策能力和游戏AI感兴趣的专业人士。它为评估和改进LLM提供了一个独特的平台。

研究者使用llm-colosseum来测试和比较不同LLM的性能。
开发者利用该工具来训练和优化自己的LLM模型。
教育机构将其作为教学案例，展示AI在复杂环境中的决策过程。

1. 访问llm-colosseum的GitHub页面并克隆或下载项目。
2. 按照README中的说明安装所需的依赖项。
3. 创建并配置.env文件，设置所需的环境变量。
4. 使用make run命令启动街霸3对战环境。
5. 观察不同LLM模型的表现，并根据ELO评分了解它们的性能。

打开网站

llm-colosseum 最新流量情况

月总访问量

502571820

跳出率

37.10%

平均页面访问数

5.9

平均访问时长

00:06:29

llm-colosseum 访问量趋势

llm-colosseum 访问地理位置分布

llm-colosseum 流量来源

llm-colosseum 替代品

AI co-scientist — AI co-scientist 是一个基于 Gemini 2.0 的多智能体 AI 系统，旨在帮助科学家生成新的研究假设和实验方案，加速科学发现。

生产力•科学研究•生物医学

168

Crawl4LLM — 一个用于LLM预训练的高效网络爬虫工具，专注于高效爬取高质量网页数据。

编程•LLM•网络爬虫

114

HOMIEtele — HOMIE 是一种新型的人形机器人遥操作系统，集成人体运动捕捉与强化学习训练框架，用于实现精准的行走与操作任务。

生产力•人形机器人•遥操作

PaliGemma 2 mix — PaliGemma 2 mix 是一款多功能的视觉语言模型，适用于多种任务和领域。

国外精选•图像识别•语言模型

108

BioEmu — BioEmu 是一个用于可扩展模拟蛋白质平衡系综的生成式深度学习模型。

生产力•生物分子模拟•深度学习

MBTI Characters — 通过 MBTI 性格测试，快速了解自己的性格类型及行为动机。

教育•性格测试•自我认知

204

Ai好记 — AI音视频转录与总结工具，提升学习和工作效率。

生产力•音视频处理•转录

Slogan Maker — 使用DeepSeek AI模型免费生成吸引人的品牌标语

生产力•品牌•标语

222

Career Dreamer — 通过AI技术帮助用户发现职业可能性，塑造个人职业身份。

教育•职业发展•教育

138

HiveChat — 专为中小团队设计的AI聊天应用，支持多种AI模型，如Deepseek、Open AI、Claude和Gemini。

聊天•团队协作•多模型支持

156

AI Kungfu Video Generator — 使用Hailuo AI技术在线生成专业功夫视频。

视频•视频生成•武术

282

Kie.ai — 在Kie.ai上集成DeepSeek R1和V3 API，提供安全且可扩展的AI解决方案。

其他•推理•自然语言处理

150

多多记单词 — 一款帮助用户高效记忆单词、提升英语学习能力的在线学习工具。

教育•英语学习•单词记忆

120

Best AI Websites & Tools

llm-colosseum

llm-colosseum 最新流量情况

llm-colosseum 访问量趋势

llm-colosseum 访问地理位置分布

llm-colosseum 流量来源

llm-colosseum 替代品

Sennu AI — Sennu AI 是一款为技术咨询公司提供 24/7 自动化销售线索挖掘和跟进的 AI 工具。

Riviera — 为酒店提供多语言AI语音代理，提升客户体验并降低运营成本。

Swatle — Swatle 是一款现代化的项目管理工具，专为快节奏团队设计，支持 AI 助手功能。

鲸喷 DeepRant — 一款游戏翻译工具，支持多款主流游戏，打破语言壁垒，助力无障碍游戏社交。

Pull Sense — AI驱动的代码审查助手，助力团队提升代码质量并保持一致标准。

Webdraw — 一个免费的 AI 应用生成平台，提供多种 AI 工具和应用创建服务。

DeepHermes-3-Llama-3-8B-Preview — DeepHermes 3 是一款支持推理和常规响应模式的大型语言模型。

Andsend — Andsend 是一个专注于帮助用户管理销售对话并提升客户关系的 AI 驱动工具。

CodeOrbital — 一个在线代码编辑器，支持多种编程语言，提供代码片段分享和Web开发功能。

Breyta — Breyta 是一款基于 AI 的定性数据分析工具，可快速从多种文件中提取研究洞察。

SEO AI Agent — SEO AI Agent 是一款能够快速创建和执行 SEO 策略的人工智能工具。

Lora — Lora 是一个为移动设备优化的本地语言模型，支持 iOS 和 Android 平台。

Microsoft Muse — Muse 是微软推出的首个用于游戏创意构思的生成式 AI 模型，能够生成游戏视觉效果和操作动作。

kg-gen — 从任何文本中提取知识图谱的人工智能工具。

The Ultra-Scale Playbook — 一个专注于超大规模系统设计和优化的工具，提供高效解决方案。

百宝箱Tbox — 基于支付宝的生活场景，通过领先的大模型技术，为企业快速构建专业级智能体。

AI co-scientist — AI co-scientist 是一个基于 Gemini 2.0 的多智能体 AI 系统，旨在帮助科学家生成新的研究假设和实验方案，加速科学发现。

Crawl4LLM — 一个用于LLM预训练的高效网络爬虫工具，专注于高效爬取高质量网页数据。

HOMIEtele — HOMIE 是一种新型的人形机器人遥操作系统，集成人体运动捕捉与强化学习训练框架，用于实现精准的行走与操作任务。

PaliGemma 2 mix — PaliGemma 2 mix 是一款多功能的视觉语言模型，适用于多种任务和领域。

BioEmu — BioEmu 是一个用于可扩展模拟蛋白质平衡系综的生成式深度学习模型。

MBTI Characters — 通过 MBTI 性格测试，快速了解自己的性格类型及行为动机。

Ai好记 — AI音视频转录与总结工具，提升学习和工作效率。

Slogan Maker — 使用DeepSeek AI模型免费生成吸引人的品牌标语

Career Dreamer — 通过AI技术帮助用户发现职业可能性，塑造个人职业身份。

HiveChat — 专为中小团队设计的AI聊天应用，支持多种AI模型，如Deepseek、Open AI、Claude和Gemini。

AI Kungfu Video Generator — 使用Hailuo AI技术在线生成专业功夫视频。

Kie.ai — 在Kie.ai上集成DeepSeek R1和V3 API，提供安全且可扩展的AI解决方案。

多多记单词 — 一款帮助用户高效记忆单词、提升英语学习能力的在线学习工具。