LLaVA-Video

Investigación en ajuste fino de instrucciones de video y datos sintéticos

Producto ComúnVideoComprensión de videoAprendizaje multimodal
LLaVA-Video es un modelo multimodal grande (LMM) centrado en el ajuste fino de instrucciones de video. Aborda el desafío de obtener grandes cantidades de datos originales de alta calidad de internet mediante la creación de un conjunto de datos sintéticos de alta calidad, LLaVA-Video-178K. Este conjunto de datos incluye tareas como descripciones detalladas de videos, preguntas y respuestas abiertas y preguntas y respuestas de opción múltiple, diseñadas para mejorar la capacidad de comprensión y razonamiento de los modelos de lenguaje de video. El modelo LLaVA-Video ha mostrado un excelente rendimiento en varias pruebas de referencia de video, demostrando la eficacia de su conjunto de datos.
Abrir sitio web

LLaVA-Video Situación del tráfico más reciente

Total de visitas mensuales

80956

Tasa de rebote

52.28%

Páginas promedio por visita

1.2

Duración promedio de la visita

00:00:34

LLaVA-Video Tendencia de visitas

LLaVA-Video Distribución geográfica de las visitas

LLaVA-Video Fuentes de tráfico

LLaVA-Video Alternativas