InternVL2-8B-MPO

多模态大语言模型，提升多模态推理能力

普通产品生产力多模态大语言模型

InternVL2-8B-MPO是一个多模态大语言模型（MLLM），通过引入混合偏好优化（MPO）过程，增强了模型的多模态推理能力。该模型在数据方面设计了自动化的偏好数据构建管线，并构建了MMPR这一大规模多模态推理偏好数据集。在模型方面，InternVL2-8B-MPO基于InternVL2-8B初始化，并使用MMPR数据集进行微调，展现出更强的多模态推理能力，且幻觉现象更少。该模型在MathVista上取得了67.0%的准确率，超越InternVL2-8B 8.7个点，且表现接近于大10倍的InternVL2-76B。

Best AI Websites & Tools

InternVL2-8B-MPO

InternVL2-8B-MPO 最新流量情况

InternVL2-8B-MPO 访问量趋势

InternVL2-8B-MPO 访问地理位置分布

InternVL2-8B-MPO 流量来源

InternVL2-8B-MPO 替代品

InternVL2_5-78B-MPO — 这是一个先进的多模态大型语言模型系列，展示了卓越的整体性能。

M2RAG — 用于多模态上下文中的检索增强生成的基准测试代码库。

Grok 3 — xAI推出的最新旗舰AI模型Grok 3，具备强大的推理和多模态处理能力。

MedRAX — MedRAX是一个用于胸部X光片解读的医疗推理AI代理，整合多种分析工具，无需额外训练即可处理复杂医疗查询。

MNN 大模型 Android App — 一款支持多模态功能的全功能大语言模型安卓应用。

UI-TARS — UI-TARS 是一个用于自动化图形用户界面交互的下一代原生 GUI 代理模型。

Doubao-1.5-pro — Doubao-1.5-pro 是一个高性能的稀疏 MoE 大语言模型，专注于推理性能与模型能力的极致平衡。

Gemini 2.0 Flash Thinking Experimental — Gemini 2.0 Flash Thinking Experimental 是一款增强推理模型，能够展示其思考过程以提升性能和可解释性。

Kimi k1.5 — Kimi k1.5 是一个通过强化学习扩展的多模态语言模型，专注于提升推理和逻辑能力。

InternVL2_5-38B-MPO — InternVL2.5-MPO系列模型，基于InternVL2.5和混合偏好优化，展现卓越性能。

InternVL2_5-26B-MPO-AWQ — 先进的多模态大型语言模型，具备卓越的多模态推理能力。

VITA-1.5 — VITA-1.5: 实时视觉和语音交互的GPT-4o级多模态大语言模型

InternVL2_5-26B-MPO — 多模态大型语言模型，提升视觉与语言的交互能力。

InternVL2_5-8B-MPO-AWQ — 多模态大型语言模型，提升视觉与语言的交互能力

InternVL2_5-4B — 多模态大型语言模型，融合视觉与语言理解。

InternVL2_5-2B — 多模态大型语言模型，支持图像与文本的深度交互

Gemini 2.0 — Google新一代AI模型，开启智能助理新时代。

MAmmoTH-VL — 大规模多模态推理与指令调优平台

InternVL2_5-8B — 多模态大型语言模型，支持图像与文本的交互理解。

Open-O1 — 开源大语言模型，匹配专有强大能力。

Phi-3-vision-128k-instruct — 微软轻量级、先进的多模态模型，专注于文本和视觉的高质量推理密集数据。

MA-LMM — 面向长期视频理解的大规模多模态模型

Fireworks AI — 基于开发者构建的生产 AI 平台

mPLUG-DocOwl — 文档理解的模块化多模态大语言模型

M2UGen — 多模态音乐理解和生成系统

Google Gemini — 基于多模态的 AI 模型，无缝进行图像、视频、音频和代码的推理

TheoremExplainAgent — TheoremExplainAgent 是一个用于生成多模态定理解释视频的智能系统。

Gemini 2.0 Flash-Lite — Gemini 2.0 Flash-Lite 是高效的语言模型，专为长文本处理和多种应用场景优化。

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct 是微软开发的轻量级多模态基础模型，支持文本、图像和音频输入。