SlowFast-LLaVA
Modelo de lenguaje grande sin entrenamiento para comprensión e inferencia de video.
Producto ComúnProductividadPreguntas y respuestas sobre videoAprendizaje multimodal
SlowFast-LLaVA es un modelo de lenguaje grande multimodal sin entrenamiento, diseñado específicamente para la comprensión e inferencia de video. Sin necesidad de ajuste fino en ningún conjunto de datos, alcanza un rendimiento comparable o incluso superior al de los modelos de lenguaje grandes de video más avanzados en diversas tareas y benchmarks de preguntas y respuestas sobre video.
SlowFast-LLaVA Situación del tráfico más reciente
Total de visitas mensuales
474564576
Tasa de rebote
36.20%
Páginas promedio por visita
6.1
Duración promedio de la visita
00:06:34