OpenCompass 2.0 Large Language Model Leaderboard

大型语言模型排行榜，实时评估模型性能。

普通产品生产力评估排行榜

OpenCompass 2.0是一个专注于大型语言模型性能评估的平台。它使用多个闭源数据集进行多维度评估，为模型提供整体平均分和专业技能分数。该平台通过实时更新排行榜，帮助开发者和研究人员了解不同模型在语言、知识、推理、数学和编程等方面的性能表现。

OpenCompass 2.0 Large Language Model Leaderboard

该产品适合研究人员、开发者和企业决策者，他们需要评估和比较不同大型语言模型的性能，以便选择最适合自己项目的模型。

研究人员使用OpenCompass 2.0评估不同模型在特定任务上的表现。
开发者利用排行榜选择适合开发聊天机器人的语言模型。
企业决策者根据排行榜数据决定采用哪种模型来优化其产品。

访问OpenCompass 2.0的官方网站。
查看实时更新的大型语言模型排行榜。
选择感兴趣的模型，查看其在不同维度上的评分。
点击评分，导航到GitHub查看模型的配置文件。
根据配置文件和技术细节，评估模型是否适合自己的需求。

打开网站

OpenCompass 2.0 Large Language Model Leaderboard 最新流量情况

月总访问量

40226

跳出率

38.44%

平均页面访问数

3.1

平均访问时长

00:03:58

OpenCompass 2.0 Large Language Model Leaderboard 访问量趋势

OpenCompass 2.0 Large Language Model Leaderboard 访问地理位置分布

OpenCompass 2.0 Large Language Model Leaderboard 流量来源

OpenCompass 2.0 Large Language Model Leaderboard 替代品

RULER — 一种用于测试长文本语言模型的合理性的评估基准

生产力•长文本•语言模型

390

DeepSeek-R1-Distill-Llama-8B — DeepSeek-R1-Distill-Llama-8B 是一个高性能的开源语言模型，适用于文本生成和推理任务。

生产力•语言模型•推理

QwQ-32B-Preview-gptqmodel-4bit-vortex-v3 — 这是一个基于Qwen2.5-32B模型的4位量化版本，专为高效推理和低资源部署设计。

编程•语言模型•量化

Best AI Websites & Tools

OpenCompass 2.0 Large Language Model Leaderboard

OpenCompass 2.0 Large Language Model Leaderboard 最新流量情况

OpenCompass 2.0 Large Language Model Leaderboard 访问量趋势

OpenCompass 2.0 Large Language Model Leaderboard 访问地理位置分布

OpenCompass 2.0 Large Language Model Leaderboard 流量来源

OpenCompass 2.0 Large Language Model Leaderboard 替代品

RULER — 一种用于测试长文本语言模型的合理性的评估基准

DeepSeek-R1-Distill-Llama-8B — DeepSeek-R1-Distill-Llama-8B 是一个高性能的开源语言模型，适用于文本生成和推理任务。

QwQ-32B-Preview-gptqmodel-4bit-vortex-v3 — 这是一个基于Qwen2.5-32B模型的4位量化版本，专为高效推理和低资源部署设计。

ReaderLM v2 — ReaderLM v2是一个用于HTML转Markdown和JSON的前沿小型语言模型。

MiniMax-Text-01 — MiniMax-Text-01是一个强大的语言模型，具有4560亿总参数，能够处理长达400万token的上下文。

MiniMax-01 — 强大的语言模型，拥有4560亿总参数，可处理长达400万token的上下文。

fullmoon — 在口袋里拥有十亿参数，与私有本地大型语言模型聊天。

MiniCPM-o-2_6 — MiniCPM-o 2.6是一个强大的多模态大型语言模型，适用于视觉、语音和多模态直播。

MiniCPM-o — MiniCPM-o 2.6：一款GPT-4o级别，可在手机上实现视觉、语音和多模态直播的MLLM。

rStar-Math — 展示小型语言模型通过自我演化深度思考掌握数学推理能力的研究成果。

Llama-3-Patronus-Lynx-70B-Instruct — 一个用于检测幻觉的开源评估模型，基于Llama-3架构，拥有700亿参数。

CAG — 一种无需实时检索的语言模型增强方法，通过预加载知识缓存来提高生成效率。

Eurus-2-7B-PRIME — 基于PRIME方法训练的7B参数语言模型，专为提升推理能力而设计。

Eurus-2-7B-SFT — Eurus-2-7B-SFT是一个经过数学能力优化的大型语言模型，专注于推理和问题解决.

Memory — 一种可扩展的内存层实现，用于在不增加计算量的情况下扩展模型参数.

Sonus AI — 未来大型语言模型的解锁者

HuatuoGPT-o1-70B — 医疗领域先进的大型语言模型

HuatuoGPT-o1-7B — 医疗领域大型语言模型，用于高级医疗推理

YuLan-Mini — 一款高效率的2.4亿参数轻量级语言模型

Edexia — Edexia 是一款智能评估标记工具。

The Language of Motion — 3D人体动作的言语和非言语语言统一模型

LangWatch — 监控、评估和优化你的LLM应用

LiveKit Plugins Turn Detector — 基于定制模型的LiveKit代理端发言结束检测插件

FACTS Grounding — 用于评估大型语言模型事实性的最新基准

Clio — 隐私保护的AI使用洞察系统

Phi-4 — 微软最新的小型语言模型，专注于复杂推理

P-MMEval — 多语言多任务基准测试，用于评估大型语言模型（LLMs）

DeepSeek-V2.5-1210 — 高性能混合专家语言模型