Migician

Migician 是一个专注于多图像定位的多模态大语言模型，能够实现自由形式的多图像精确定位。

普通产品图像多模态图像定位

Migician 是清华大学自然语言处理实验室开发的一种多模态大语言模型，专注于多图像定位任务。该模型通过引入创新的训练框架和大规模数据集 MGrounding-630k，显著提升了多图像场景下的精确定位能力。它不仅超越了现有的多模态大语言模型，甚至在性能上超过了更大规模的 70B 模型。Migician 的主要优点在于其能够处理复杂的多图像任务，并提供自由形式的定位指令，使其在多图像理解领域具有重要的应用前景。该模型目前在 Hugging Face 上开源，供研究人员和开发者使用。

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

Migician

Migician 最新流量情况

Migician 访问量趋势

Migician 访问地理位置分布

Migician 流量来源

Migician 替代品

Migician — Migician 是一个专注于多图像定位的多模态大语言模型，能够实现自由形式的多图像精确定位。

ViDoRAG — ViDoRAG 是一个结合视觉文档检索增强生成的动态迭代推理代理框架。

Janus-Pro-1B — Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。

VideoLLaMA3 — VideoLLaMA3是前沿的多模态基础模型，专注于图像和视频理解。

InternVL2_5-8B-MPO — 多模态大型语言模型，展示卓越的整体性能。

InternVL2_5-4B-MPO — 多模态大型语言模型，展示卓越的整体性能

FlagAI — 一站式大模型算法、模型及优化工具开源项目

InternVL2_5-2B-MPO — 先进的多模态大型语言模型

InternVL2_5-1B-MPO — 多模态大型语言模型，提升视觉和语言的综合理解能力

WePOINTS — WePOINTS项目，提供多模态模型的统一框架

InternVL2_5-38B — 先进的多模态大型语言模型系列

Pixtral-Large-Instruct-2411 — 124B参数的多模态大型语言模型

EMOVA — 情感丰富的多模态语言模型

Molmo — 先进的多模态AI模型家族

pixtral-12b-240910 — 多模态大型语言模型，支持图像和文本理解。

西湖大模型 — 情商智商俱佳的多模态大模型

MedTrinity-25M — 大规模多模态医学数据集

GLM-4系列 — 开源多语言多模态对话模型

Gemini 1.5 Flash — Google 一款轻量级、高效能的AI模型，专为大规模高频任务设计。

Meta Llama 3 — Meta 新一代开源大型语言模型,性能卓越

Grok-1.5 Vision Preview — 连接数字和物理世界的首款多模态模型

Llama 3 — 新一代开源大型语言模型,性能卓越

Yi-VL-34B — 先进的开源多模态模型

Instruct-Imagen — 多模态图像生成模型

TinyGPT-V — 高效多模态大型语言模型

PixelLLM — 像素对齐语言模型

Kosmos-2 — 面向世界的多模式大型语言模型

DreamActor-M1 — 基于 DiT 的人类图像动画框架，实现精细控制与长效一致性。

Gemini 2.5 — Gemini 2.5 是谷歌最智能的 AI 模型，具备推理能力。