PPLLaVA
Modelo de implementação em GPU para compreensão de sequências de vídeo
Produto ComumVídeoCompreensão de vídeoModelo de linguagem grande
PPLLaVA é um modelo de linguagem grande de vídeo eficiente, que combina alinhamento de prompts visuais de granularidade fina, compressão de tokens visuais com pooling de estilo convolucional para instruções do usuário e extensão de contexto CLIP. O modelo estabeleceu novos resultados de ponta em datasets como VideoMME, MVBench, VideoChatGPT Bench e VideoQA Bench, com aumento de 8 vezes na taxa de transferência, usando apenas 1024 tokens visuais.
PPLLaVA Situação do Tráfego Mais Recente
Total de Visitas Mensais
474564576
Taxa de Rejeição
36.20%
Média de Páginas por Visita
6.1
Duração Média da Visita
00:06:34