LongVA
Modelo de conversão de contexto longo de linguagem para visão
Produto ComumImagemContexto LongoModelo Visual
LongVA é um modelo de conversão de contexto longo capaz de processar mais de 2000 frames ou mais de 200.000 tokens visuais. Seu desempenho no Video-MME é líder entre modelos de 7B. O modelo foi testado com CUDA 11.8 e A100-SXM-80G e pode ser iniciado e usado rapidamente através da plataforma Hugging Face.
LongVA Situação do Tráfego Mais Recente
Total de Visitas Mensais
474564576
Taxa de Rejeição
36.20%
Média de Páginas por Visita
6.1
Duração Média da Visita
00:06:34