MG-LLaVA
Modelo de Linguagem de Aprendizado de Máquina (MLLM) inovador com ajuste fino de instruções visuais de granularidade múltipla
Produto ComumProgramaçãoAprendizado de MáquinaProcessamento Visual
MG-LLaVA é um modelo de linguagem de aprendizado de máquina (MLLM) que aprimora a capacidade de processamento visual do modelo, integrando fluxos visuais de granularidade múltipla, incluindo recursos de baixa resolução, alta resolução e centrados em objetos. Propõe-se um codificador visual de alta resolução adicional para capturar detalhes e, por meio de uma rede de fusão Conv-Gate, fundir com os recursos visuais básicos. Além disso, recursos de nível de objeto são incorporados por meio de caixas delimitadoras identificadas por um detector off-line para refinar ainda mais a capacidade de reconhecimento de objetos do modelo. O MG-LLaVA é treinado apenas em dados multimodais publicamente disponíveis por meio de ajuste fino de instruções, exibindo habilidades perceptivas excepcionais.
MG-LLaVA Situação do Tráfego Mais Recente
Total de Visitas Mensais
474564576
Taxa de Rejeição
36.20%
Média de Páginas por Visita
6.1
Duração Média da Visita
00:06:34