PPLLaVA

Modelo de implementación de GPU para la comprensión de secuencias de vídeo

Producto ComúnVideoComprensión de vídeoModelo de lenguaje grande
PPLLaVA es un modelo de lenguaje grande de vídeo eficiente que combina la alineación de indicaciones visuales de grano fino, la compresión de tokens visuales mediante agrupación de estilo convolucional de instrucciones de usuario y la extensión de contexto CLIP. Este modelo establece nuevos resultados de vanguardia en conjuntos de datos como VideoMME, MVBench, VideoChatGPT Bench y VideoQA Bench, con un aumento de 8 veces en el rendimiento utilizando solo 1024 tokens visuales.
Abrir sitio web

PPLLaVA Situación del tráfico más reciente

Total de visitas mensuales

474564576

Tasa de rebote

36.20%

Páginas promedio por visita

6.1

Duración promedio de la visita

00:06:34

PPLLaVA Tendencia de visitas

PPLLaVA Distribución geográfica de las visitas

PPLLaVA Fuentes de tráfico

PPLLaVA Alternativas