MiniGemini
Modelo de linguagem grande multimodal que suporta a compreensão e geração simultâneas de imagens.
Produto ComumProgramaçãoMultimodalModelo de linguagem visual
Mini-Gemini é um modelo de linguagem visual multimodal que suporta uma série de modelos de linguagem grandes densos e MoE de 2B a 34B, com capacidades de compreensão, raciocínio e geração de imagens. Ele é construído com base no LLaVA, utilizando um codificador visual duplo para fornecer embeddings visuais de baixa resolução e regiões candidatas de alta resolução. Emprega mineração de informações de patches para extrair informações em nível de patch entre consultas visuais de alta e baixa resolução, integrando texto e imagem para tarefas de compreensão e geração. Suporta vários benchmarks de compreensão visual, incluindo COCO, GQA, OCR-VQA e VisualGenome.
MiniGemini Situação do Tráfego Mais Recente
Total de Visitas Mensais
1013
Taxa de Rejeição
50.36%
Média de Páginas por Visita
1.0
Duração Média da Visita
00:00:00