PPLLaVA
Modelo de implementación de GPU para la comprensión de secuencias de vídeo
Producto ComúnVideoComprensión de vídeoModelo de lenguaje grande
PPLLaVA es un modelo de lenguaje grande de vídeo eficiente que combina la alineación de indicaciones visuales de grano fino, la compresión de tokens visuales mediante agrupación de estilo convolucional de instrucciones de usuario y la extensión de contexto CLIP. Este modelo establece nuevos resultados de vanguardia en conjuntos de datos como VideoMME, MVBench, VideoChatGPT Bench y VideoQA Bench, con un aumento de 8 veces en el rendimiento utilizando solo 1024 tokens visuales.
PPLLaVA Situación del tráfico más reciente
Total de visitas mensuales
474564576
Tasa de rebote
36.20%
Páginas promedio por visita
6.1
Duración promedio de la visita
00:06:34