LLaVA-OneVision

Modelo de conversión eficiente para tareas de visión multimodal

Producto ComúnImagenMultimodalReconocimiento visual
LLaVA-OneVision es un gran modelo multimodal (LMM) desarrollado conjuntamente por ByteDance y varias universidades. Impulsa los límites de rendimiento de los modelos multimodales abiertos de gran escala en escenarios de una sola imagen, múltiples imágenes y vídeo. El diseño del modelo permite un potente aprendizaje por transferencia entre diferentes modalidades/escenarios, mostrando nuevas capacidades integrales, especialmente en la comprensión de vídeo y la capacidad inter-escenarios, demostrada a través de la transferencia de tareas de imagen a vídeo.
Abrir sitio web

LLaVA-OneVision Situación del tráfico más reciente

Total de visitas mensuales

80956

Tasa de rebote

52.28%

Páginas promedio por visita

1.2

Duración promedio de la visita

00:00:34

LLaVA-OneVision Tendencia de visitas

LLaVA-OneVision Distribución geográfica de las visitas

LLaVA-OneVision Fuentes de tráfico

LLaVA-OneVision Alternativas