LLaVA-Video
Investigación en ajuste fino de instrucciones de video y datos sintéticos
Producto ComúnVideoComprensión de videoAprendizaje multimodal
LLaVA-Video es un modelo multimodal grande (LMM) centrado en el ajuste fino de instrucciones de video. Aborda el desafío de obtener grandes cantidades de datos originales de alta calidad de internet mediante la creación de un conjunto de datos sintéticos de alta calidad, LLaVA-Video-178K. Este conjunto de datos incluye tareas como descripciones detalladas de videos, preguntas y respuestas abiertas y preguntas y respuestas de opción múltiple, diseñadas para mejorar la capacidad de comprensión y razonamiento de los modelos de lenguaje de video. El modelo LLaVA-Video ha mostrado un excelente rendimiento en varias pruebas de referencia de video, demostrando la eficacia de su conjunto de datos.
LLaVA-Video Situación del tráfico más reciente
Total de visitas mensuales
80956
Tasa de rebote
52.28%
Páginas promedio por visita
1.2
Duración promedio de la visita
00:00:34