MiniGemini

Modelo de linguagem grande multimodal que suporta a compreensão e geração simultâneas de imagens.

Produto ComumProgramaçãoMultimodalModelo de linguagem visual

Mini-Gemini é um modelo de linguagem visual multimodal que suporta uma série de modelos de linguagem grandes densos e MoE de 2B a 34B, com capacidades de compreensão, raciocínio e geração de imagens. Ele é construído com base no LLaVA, utilizando um codificador visual duplo para fornecer embeddings visuais de baixa resolução e regiões candidatas de alta resolução. Emprega mineração de informações de patches para extrair informações em nível de patch entre consultas visuais de alta e baixa resolução, integrando texto e imagem para tarefas de compreensão e geração. Suporta vários benchmarks de compreensão visual, incluindo COCO, GQA, OCR-VQA e VisualGenome.

Codificador visual duplo de baixa/alta resolução
Mineração de informações em nível de patch
Integração de texto e imagem baseada em modelo de linguagem grande
Suporta tarefas de compreensão e geração visual

O Mini-Gemini pode ser aplicado em diversos cenários que requerem o processamento simultâneo de texto e imagens
como resposta a perguntas visuais
geração de descrições de imagens e edição de imagens.

Responder a perguntas relacionadas ao conteúdo de uma imagem fornecida
Gerar uma descrição textual de uma imagem
Editar uma imagem e gerar uma nova imagem com base em instruções

Abrir Site

MiniGemini Situação do Tráfego Mais Recente

Total de Visitas Mensais

1013

Taxa de Rejeição

50.36%

Média de Páginas por Visita

1.0

Duração Média da Visita

00:00:00

MiniGemini Tendência de Visitas

MiniGemini Distribuição Geográfica das Visitas

MiniGemini Fontes de Tráfego

MiniGemini Alternativas

MiniGemini — Modelo de linguagem grande multimodal que suporta a compreensão e geração simultâneas de imagens.

Programação

Best AI Websites & Tools

MiniGemini

MiniGemini Situação do Tráfego Mais Recente

MiniGemini Tendência de Visitas

MiniGemini Distribuição Geográfica das Visitas

MiniGemini Fontes de Tráfego

MiniGemini Alternativas

MiniGemini — Modelo de linguagem grande multimodal que suporta a compreensão e geração simultâneas de imagens.

Qwen2-VL-2B — Modelo de linguagem visual de ponta, com suporte para compreensão multimodal e geração de texto.

MM1.5 — Otimização e Análise de Modelos de Linguagem Grandes Multimodais

mPLUG-Owl3 — Modelo de linguagem grande multimodal que compreende sequências longas de imagens.

VLM-R1 — O VLM-R1 é um modelo de linguagem visual reforçado estável e versátil, focado em tarefas de compreensão visual.

Janus Pro — Janus Pro é uma plataforma avançada de geração e compreensão de imagens com IA, oferecendo serviços de inteligência visual de alta qualidade.

Janus-Pro-7B — Janus-Pro-7B é uma nova estrutura autoregressiva que unifica a compreensão e a geração multimodais.

Janus-Pro-1B — Janus-Pro-1B é uma estrutura auto-regressiva unificada de compreensão e geração multimodal.

VideoLLaMA3 — VideoLLaMA3 é um modelo básico multimodal de ponta, focado na compreensão de imagens e vídeos.

Doubao-1.5-pro — Doubao-1.5-pro é um modelo de linguagem grande (LLM) esparso MoE de alto desempenho, focado no equilíbrio extremo entre desempenho de inferência e capacidade do modelo.

InternVL2_5-78B-MPO — Esta é uma série de modelos de linguagem grandes multimodais avançados, apresentando desempenho geral excepcional.

MinMo — MinMo é um modelo de linguagem grande multimodário para interação de voz perfeita.

Moondream AI — Modelo de linguagem visual de código aberto, executável em diversos dispositivos.

InternVL2_5-38B-MPO — Modelo da série InternVL2.5-MPO, baseado no InternVL2.5 e otimização de preferência mista, apresentando desempenho excepcional.

InternVL2_5-26B-MPO-AWQ — Modelo de linguagem grande multimodais avançado, com capacidade excepcional de raciocínio multimodais.

CreatiLayout — Tecnologia de geração de imagem a partir de layout criativo baseada em transformador de difusão multimodal siamês.

InternVL2_5-26B-MPO — Modelo de linguagem grande multimodal que aprimora a interação entre visão e linguagem.

InternVL2_5-8B-MPO — Modelo de linguagem grande multimodais, demonstrando desempenho geral excepcional.

DiffSensei — Modelo de geração de mangás personalizado, que conecta LLMs multimodais e modelos de difusão.

InternVL2_5-4B-MPO-AWQ — Modelo de linguagem grande multimodal, otimizado para interação imagem-texto.

InternVL2_5-4B-MPO — Modelo de linguagem grande multi-modal, demonstrando desempenho geral excelente.

Valley 2.0 — Modelo de linguagem grande multi-modal, aprimora a capacidade de processamento de dados de texto, imagem e vídeo.

InternVL2_5-2B-MPO — Modelo de linguagem grande multimodal avançado

InternVL2_5-1B-MPO — Modelo de linguagem grande multimodal que aprimora a compreensão integrada de visão e linguagem.

InternVL2-8B-MPO — Modelo de linguagem grande multimodal, aprimorando a capacidade de raciocínio multimodal.

POINTS-Yi-1.5-9B-Chat — Avanço recente em modelos de linguagem visual, integrando novas tecnologias do WeChat AI.

POINTS-Qwen-2-5-7B-Chat — Avanços recentes em modelos de linguagem visual

InternVL 2.5 — Série de modelos de linguagem grandes multimodais de código aberto

InternVL2_5-4B — Modelo de linguagem grande multimodal, que integra compreensão visual e linguística.

InternVL2_5-2B — Modelo de linguagem grande multimodal, que suporta interação profunda entre imagens e texto.