MiniGemini

支持同时理解和生成图像的多模态大型语言模型

普通产品编程多模态视觉语言模型

Mini-Gemini是一个多模态视觉语言模型,支持从2B到34B的系列密集和MoE大型语言模型,同时具备图像理解、推理和生成能力。它基于LLaVA构建,利用双视觉编码器提供低分辨率视觉嵌入和高分辨率候选区域,采用补丁信息挖掘在高分辨率区域和低分辨率视觉查询之间进行补丁级挖掘,将文本与图像融合用于理解和生成任务。支持包括COCO、GQA、OCR-VQA、VisualGenome等多个视觉理解基准测试。

低分辨率/高分辨率双视觉编码器
补丁级信息挖掘
基于大型语言模型的图文融合
支持视觉理解和生成任务

Mini-Gemini可应用于需要同时处理文本和图像的各种场景
如视觉问答、图像描述生成、图像编辑等。

根据给定的图像内容回答相关问题
生成图像的文字描述
根据指令对图像进行编辑生成新图像

打开网站

MiniGemini 最新流量情况

月总访问量

1181

跳出率

40.97%

平均页面访问数

1.0

平均访问时长

00:00:00

MiniGemini 访问量趋势

MiniGemini 访问地理位置分布

MiniGemini 流量来源

MiniGemini 替代品

Best AI Websites & Tools

MiniGemini

MiniGemini 最新流量情况

MiniGemini 访问量趋势

MiniGemini 访问地理位置分布

MiniGemini 流量来源

MiniGemini 替代品

Qwen2-VL-2B — 最先进的视觉语言模型，支持多模态理解和文本生成。

Pixtral-Large-Instruct-2411 — 124B参数的多模态大型语言模型

MM1.5 — 多模态大型语言模型的优化与分析

mPLUG-Owl3 — 多模态大型语言模型，理解长图像序列。

Janus Pro — Janus Pro 是一款先进的 AI 图像生成与理解平台，提供高质量的视觉智能服务。

Janus-Pro-7B — Janus-Pro-7B 是一个新型的自回归框架，统一多模态理解和生成。

Janus-Pro-1B — Janus-Pro-1B 是一个统一多模态理解和生成的自回归框架。

VideoLLaMA3 — VideoLLaMA3是前沿的多模态基础模型，专注于图像和视频理解。

InternVL2_5-78B-MPO — 这是一个先进的多模态大型语言模型系列，展示了卓越的整体性能。

MinMo — MinMo是一款多模态大型语言模型，用于无缝语音交互。

Moondream AI — 开源的视觉语言模型，可在多种设备上运行。

InternVL2_5-38B-MPO — InternVL2.5-MPO系列模型，基于InternVL2.5和混合偏好优化，展现卓越性能。

InternVL2_5-26B-MPO-AWQ — 先进的多模态大型语言模型，具备卓越的多模态推理能力。

CreatiLayout — 基于孪生多模态扩散变换器的创意布局到图像生成技术

InternVL2_5-26B-MPO — 多模态大型语言模型，提升视觉与语言的交互能力。

InternVL2_5-8B-MPO-AWQ — 多模态大型语言模型，提升视觉与语言的交互能力

InternVL2_5-8B-MPO — 多模态大型语言模型，展示卓越的整体性能。

DiffSensei — 定制化漫画生成模型，连接多模态LLMs和扩散模型。

InternVL2_5-4B-MPO-AWQ — 多模态大型语言模型，优化图像与文本交互能力

InternVL2_5-4B-MPO — 多模态大型语言模型，展示卓越的整体性能

Valley 2.0 — 多模态大型语言模型，提升文本、图像和视频数据处理能力。

InternVL2_5-2B-MPO — 先进的多模态大型语言模型

InternVL2_5-1B-MPO — 多模态大型语言模型，提升视觉和语言的综合理解能力

POINTS-Yi-1.5-9B-Chat — 视觉语言模型的最新进展，集成微信AI的新技术

POINTS-Qwen-2-5-7B-Chat — 视觉语言模型的最新进展

InternVL 2.5 — 开源多模态大型语言模型系列

InternVL2_5-4B — 多模态大型语言模型，融合视觉与语言理解。

InternVL2_5-2B — 多模态大型语言模型，支持图像与文本的深度交互

InternVL2_5-1B — 多模态大型语言模型，支持图像和文本理解