Video-LLaVA
Aprende representaciones visuales conjuntas mediante la alineación de proyecciones previas
Producto ComúnVideoAprendizaje automáticoComprensión visual
Video-LLaVA es un modelo para aprender representaciones visuales conjuntas, entrenado mediante la alineación de proyecciones previas. Puede alinear las representaciones de vídeo e imagen, consiguiendo así una mejor comprensión visual. El modelo presenta una velocidad de aprendizaje e inferencia eficiente, siendo adecuado para el procesamiento de vídeo y tareas de visión artificial.
Video-LLaVA Situación del tráfico más reciente
Total de visitas mensuales
1545596
Tasa de rebote
34.62%
Páginas promedio por visita
7.0
Duración promedio de la visita
00:06:23