Multi-modal Large Language Models

提供全面的MLLMs评估

普通产品生产力MLLMs评估工具

该工具旨在通过对最新专有和开源MLLMs进行定性研究，从文本、代码、图像和视频四个模态的角度，评估其泛化能力、可信度和因果推理能力，以提高MLLMs的透明度。我们相信这些属性是定义MLLMs可靠性的几个代表性因素，支持各种下游应用。具体而言，我们评估了闭源的GPT-4和Gemini以及6个开源LLMs和MLLMs。总体上，我们评估了230个手动设计的案例，定性结果总结为12个分数（即4个模态乘以3个属性）。总共，我们揭示了14个实证发现，有助于了解专有和开源MLLMs的能力和局限性，以更可靠地支持多模态下游应用。

Best AI Websites & Tools

Multi-modal Large Language Models

Multi-modal Large Language Models 最新流量情况

Multi-modal Large Language Models 访问量趋势

Multi-modal Large Language Models 访问地理位置分布

Multi-modal Large Language Models 流量来源

Multi-modal Large Language Models 替代品

ZeroBench — ZeroBench 是一个针对当代大型多模态模型的高难度视觉基准测试。

Magma — Magma 是一个能够理解和执行多模态输入的基础模型，可用于复杂任务和环境。

Grok 3 — xAI推出的最新旗舰AI模型Grok 3，具备强大的推理和多模态处理能力。

CLaMP 3 — CLaMP 3 是一个用于跨模态和跨语言音乐信息检索的统一框架。

VideoRAG — VideoRAG 是一个用于处理极长上下文视频的检索增强型生成框架。

MedRAX — MedRAX是一个用于胸部X光片解读的医疗推理AI代理，整合多种分析工具，无需额外训练即可处理复杂医疗查询。

Qwen2.5-VL — Qwen2.5-VL 是一款强大的视觉语言模型，能够理解图像和视频内容并生成相应文本。

Gemini 2.0 Family — Gemini 2.0 是谷歌推出的最新一代生成式 AI 模型，包含 Flash、Flash-Lite 和 Pro 版本。

Gemini 2.0 Pro — Gemini Pro 是 Google DeepMind 推出的高性能 AI 模型，专注于复杂任务处理和编程性能。

R1-V — 低成本强化视觉语言模型的泛化能力，仅需不到3美元。

OmniHuman-1 — OmniHuman-1 是一种基于单张人像和运动信号生成人类视频的多模态框架。

MILS — LLMs 无需任何培训就能看见和听见

MNN 大模型 Android App — 一款支持多模态功能的全功能大语言模型安卓应用。

Janus-Pro-7B — Janus-Pro-7B 是一个新型的自回归框架，统一多模态理解和生成。

Janus-Pro-1B — Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。

Humanity's Last Exam — Humanity's Last Exam 是一个用于衡量大型语言模型能力的多模态基准测试。

CUA — CUA 是一种能够通过图形界面与数字世界交互的通用接口。

SmolVLM-256M-Instruct — SmolVLM-256M 是世界上最小的多模态模型，可高效处理图像和文本输入并生成文本输出。

SmolVLM-500M-Instruct — SmolVLM-500M 是一个轻量级多模态模型，能够处理图像和文本输入并生成文本输出。

VideoLLaMA3 — VideoLLaMA3是前沿的多模态基础模型，专注于图像和视频理解。

UI-TARS — UI-TARS 是一个用于自动化图形用户界面交互的下一代原生 GUI 代理模型。

Doubao-1.5-pro — Doubao-1.5-pro 是一个高性能的稀疏 MoE 大语言模型，专注于推理性能与模型能力的极致平衡。

Gemini 2.0 Flash Thinking Experimental — Gemini 2.0 Flash Thinking Experimental 是一款增强推理模型，能够展示其思考过程以提升性能和可解释性。

Kimi k1.5 — Kimi k1.5 是一个通过强化学习扩展的多模态语言模型，专注于提升推理和逻辑能力。

OmAgent.com — 一个用于智能设备等的多模态原生代理框架。

InternVL2_5-78B-MPO — 这是一个先进的多模态大型语言模型系列，展示了卓越的整体性能。

MinMo — MinMo是一款多模态大型语言模型，用于无缝语音交互。

MiniCPM-o-2_6 — MiniCPM-o 2.6是一个强大的多模态大型语言模型，适用于视觉、语音和多模态直播。

MiniCPM-o — MiniCPM-o 2.6：一款GPT-4o级别，可在手机上实现视觉、语音和多模态直播的MLLM。