InternVL 2.5

开源多模态大型语言模型系列

普通产品生产力多模态大型语言模型

InternVL 2.5是基于InternVL 2.0的高级多模态大型语言模型系列，它在保持核心模型架构的同时，在训练和测试策略以及数据质量方面引入了显著的增强。该模型深入探讨了模型扩展与性能之间的关系，系统地探索了视觉编码器、语言模型、数据集大小和测试时配置的性能趋势。通过在包括多学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力和纯语言处理在内的广泛基准测试中进行的广泛评估，InternVL 2.5展现出了与GPT-4o和Claude-3.5-Sonnet等领先商业模型相媲美的竞争力。特别是，该模型是第一个在MMMU基准测试中超过70%的开源MLLM，通过链式思考（CoT）推理实现了3.7个百分点的提升，并展示了测试时扩展的强大潜力。

Best AI Websites & Tools

InternVL 2.5

InternVL 2.5 最新流量情况

InternVL 2.5 访问量趋势

InternVL 2.5 访问地理位置分布

InternVL 2.5 流量来源

InternVL 2.5 替代品

Valley 2.0 — 多模态大型语言模型，提升文本、图像和视频数据处理能力。

InternVL 2.5 — 开源多模态大型语言模型系列

NVLM 1.0 — 前沿级多模态大型语言模型

Mistral Small 3.1 — 增强文本与视觉任务处理能力的开源模型。

Migician — Migician 是一个专注于多图像定位的多模态大语言模型，能够实现自由形式的多图像精确定位。

SWE-RL — 通过强化学习提升大型语言模型在开源软件演变中的推理能力

DeepSeek Japanese — DeepSeek 是一款先进的 AI 语言模型，擅长逻辑推理、数学和编程任务，提供免费使用。

Coding-Tutor — 探索大型语言模型作为编程辅导工具的潜力，提出Trace-and-Verify工作流。

Goedel-Prover — Goedel-Prover 是一款开源的自动化定理证明模型，专注于数学问题的形式化证明。

OmniParser-v2.0 — OmniParser 是一款通用屏幕解析工具，可将 UI 截图转换为结构化格式，提升基于 LLM 的 UI 代理性能。

Mistral-Small-24B-Instruct-2501 — Mistral Small 24B 是一款多语言、高性能的指令微调型大型语言模型，适用于多种应用场景。

Janus-Pro-1B — Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。

SmolVLM-500M-Instruct — SmolVLM-500M 是一个轻量级多模态模型，能够处理图像和文本输入并生成文本输出。

DeepSeek-R1-Distill-Llama-70B — DeepSeek-R1-Distill-Llama-70B 是一款基于强化学习优化的大型语言模型，专注于推理和对话能力。

InternVL2_5-78B-MPO — 这是一个先进的多模态大型语言模型系列，展示了卓越的整体性能。

self-adaptive-llms — 一个实时适应未见任务的自适应大型语言模型框架。

InternLM3-8B-Instruct — InternLM3-8B-Instruct是一个开源的80亿参数指令模型，用于通用用途和高级推理。

MinMo — MinMo是一款多模态大型语言模型，用于无缝语音交互。

Moondream AI — 开源的视觉语言模型，可在多种设备上运行。

InternVL2_5-38B-MPO — InternVL2.5-MPO系列模型，基于InternVL2.5和混合偏好优化，展现卓越性能。

InternVL2_5-26B-MPO-AWQ — 先进的多模态大型语言模型，具备卓越的多模态推理能力。

VITA-1.5 — VITA-1.5: 实时视觉和语音交互的GPT-4o级多模态大语言模型

InternVL2_5-26B-MPO — 多模态大型语言模型，提升视觉与语言的交互能力。

InternVL2_5-8B-MPO-AWQ — 多模态大型语言模型，提升视觉与语言的交互能力

InternVL2_5-8B-MPO — 多模态大型语言模型，展示卓越的整体性能。

HuatuoGPT-o1-8B — 先进的医疗领域大型语言模型

HuatuoGPT-o1 — 医疗领域复杂推理的大型语言模型

InternVL2_5-4B-MPO-AWQ — 多模态大型语言模型，优化图像与文本交互能力

OpenEMMA — 开源的端到端自动驾驶多模态模型

InternVL2_5-4B-MPO — 多模态大型语言模型，展示卓越的整体性能