MG-LLaVA

Modelo de Linguagem de Aprendizado de Máquina (MLLM) inovador com ajuste fino de instruções visuais de granularidade múltipla

Produto ComumProgramaçãoAprendizado de MáquinaProcessamento Visual
MG-LLaVA é um modelo de linguagem de aprendizado de máquina (MLLM) que aprimora a capacidade de processamento visual do modelo, integrando fluxos visuais de granularidade múltipla, incluindo recursos de baixa resolução, alta resolução e centrados em objetos. Propõe-se um codificador visual de alta resolução adicional para capturar detalhes e, por meio de uma rede de fusão Conv-Gate, fundir com os recursos visuais básicos. Além disso, recursos de nível de objeto são incorporados por meio de caixas delimitadoras identificadas por um detector off-line para refinar ainda mais a capacidade de reconhecimento de objetos do modelo. O MG-LLaVA é treinado apenas em dados multimodais publicamente disponíveis por meio de ajuste fino de instruções, exibindo habilidades perceptivas excepcionais.
Abrir Site

MG-LLaVA Situação do Tráfego Mais Recente

Total de Visitas Mensais

474564576

Taxa de Rejeição

36.20%

Média de Páginas por Visita

6.1

Duração Média da Visita

00:06:34

MG-LLaVA Tendência de Visitas

MG-LLaVA Distribuição Geográfica das Visitas

MG-LLaVA Fontes de Tráfego

MG-LLaVA Alternativas