MiniGemini

Modelo de linguagem grande multimodal que suporta a compreensão e geração simultâneas de imagens.

Produto ComumProgramaçãoMultimodalModelo de linguagem visual
Mini-Gemini é um modelo de linguagem visual multimodal que suporta uma série de modelos de linguagem grandes densos e MoE de 2B a 34B, com capacidades de compreensão, raciocínio e geração de imagens. Ele é construído com base no LLaVA, utilizando um codificador visual duplo para fornecer embeddings visuais de baixa resolução e regiões candidatas de alta resolução. Emprega mineração de informações de patches para extrair informações em nível de patch entre consultas visuais de alta e baixa resolução, integrando texto e imagem para tarefas de compreensão e geração. Suporta vários benchmarks de compreensão visual, incluindo COCO, GQA, OCR-VQA e VisualGenome.
Abrir Site

MiniGemini Situação do Tráfego Mais Recente

Total de Visitas Mensais

1013

Taxa de Rejeição

50.36%

Média de Páginas por Visita

1.0

Duração Média da Visita

00:00:00

MiniGemini Tendência de Visitas

MiniGemini Distribuição Geográfica das Visitas

MiniGemini Fontes de Tráfego

MiniGemini Alternativas