LLaVA-OneVision
Modelo de conversión eficiente para tareas de visión multimodal
Producto ComúnImagenMultimodalReconocimiento visual
LLaVA-OneVision es un gran modelo multimodal (LMM) desarrollado conjuntamente por ByteDance y varias universidades. Impulsa los límites de rendimiento de los modelos multimodales abiertos de gran escala en escenarios de una sola imagen, múltiples imágenes y vídeo. El diseño del modelo permite un potente aprendizaje por transferencia entre diferentes modalidades/escenarios, mostrando nuevas capacidades integrales, especialmente en la comprensión de vídeo y la capacidad inter-escenarios, demostrada a través de la transferencia de tareas de imagen a vídeo.
LLaVA-OneVision Situación del tráfico más reciente
Total de visitas mensuales
80956
Tasa de rebote
52.28%
Páginas promedio por visita
1.2
Duración promedio de la visita
00:00:34