MG-LLaVA
MLLM innovador con ajuste fino de instrucciones visuales multigranulares
Producto ComúnProgramaciónAprendizaje automáticoProcesamiento visual
MG-LLaVA es un modelo de lenguaje de aprendizaje automático (MLLM) que mejora la capacidad de procesamiento visual del modelo mediante la integración de un flujo visual multigranular, que incluye características de baja resolución, alta resolución y centradas en objetos. Se propone un codificador visual de alta resolución adicional para capturar detalles, y se fusiona con las características visuales básicas mediante una red de fusión Conv-Gate. Además, se integran características a nivel de objeto mediante cuadros delimitadores identificados por un detector fuera de línea para refinar aún más la capacidad de reconocimiento de objetos del modelo. MG-LLaVA se entrenó únicamente con datos multimodales públicamente disponibles mediante ajuste fino de instrucciones, mostrando excelentes habilidades perceptivas.
MG-LLaVA Situación del tráfico más reciente
Total de visitas mensuales
474564576
Tasa de rebote
36.20%
Páginas promedio por visita
6.1
Duración promedio de la visita
00:06:34