MiniGemini

支持同时理解和生成图像的多模态大型语言模型

普通产品编程多模态视觉语言模型
Mini-Gemini是一个多模态视觉语言模型,支持从2B到34B的系列密集和MoE大型语言模型,同时具备图像理解、推理和生成能力。它基于LLaVA构建,利用双视觉编码器提供低分辨率视觉嵌入和高分辨率候选区域,采用补丁信息挖掘在高分辨率区域和低分辨率视觉查询之间进行补丁级挖掘,将文本与图像融合用于理解和生成任务。支持包括COCO、GQA、OCR-VQA、VisualGenome等多个视觉理解基准测试。
打开网站

MiniGemini 最新流量情况

月总访问量

494

跳出率

60.69%

平均页面访问数

1.0

平均访问时长

00:00:00

MiniGemini 访问量趋势

MiniGemini 访问地理位置分布

MiniGemini 流量来源

MiniGemini 替代品