MG-LLaVA

MLLM innovador con ajuste fino de instrucciones visuales multigranulares

Producto ComúnProgramaciónAprendizaje automáticoProcesamiento visual
MG-LLaVA es un modelo de lenguaje de aprendizaje automático (MLLM) que mejora la capacidad de procesamiento visual del modelo mediante la integración de un flujo visual multigranular, que incluye características de baja resolución, alta resolución y centradas en objetos. Se propone un codificador visual de alta resolución adicional para capturar detalles, y se fusiona con las características visuales básicas mediante una red de fusión Conv-Gate. Además, se integran características a nivel de objeto mediante cuadros delimitadores identificados por un detector fuera de línea para refinar aún más la capacidad de reconocimiento de objetos del modelo. MG-LLaVA se entrenó únicamente con datos multimodales públicamente disponibles mediante ajuste fino de instrucciones, mostrando excelentes habilidades perceptivas.
Abrir sitio web

MG-LLaVA Situación del tráfico más reciente

Total de visitas mensuales

474564576

Tasa de rebote

36.20%

Páginas promedio por visita

6.1

Duración promedio de la visita

00:06:34

MG-LLaVA Tendencia de visitas

MG-LLaVA Distribución geográfica de las visitas

MG-LLaVA Fuentes de tráfico

MG-LLaVA Alternativas