VideoPrism

Modelo básico de compreensão de vídeo

Produto ComumVídeoCompreensão de VídeoCodificador
O VideoPrism é um modelo de codificação de vídeo universal, capaz de alcançar desempenho de ponta em diversas tarefas de compreensão de vídeo, incluindo classificação, localização, recuperação, geração de legendas e perguntas e respostas. Sua inovação reside em seu conjunto de dados de pré-treinamento, extremamente amplo e diversificado, contendo 36 milhões de pares vídeo-texto de alta qualidade e 582 milhões de clipes de vídeo com texto ruidoso. O pré-treinamento emprega uma estratégia de duas etapas: primeiro, utiliza aprendizado contrastivo para combinar vídeo e texto; em seguida, prevê blocos de vídeo mascarados, aproveitando ao máximo diferentes sinais de supervisão. Um modelo VideoPrism fixo pode ser diretamente adaptado a tarefas downstream, batendo o estado da arte em 30 benchmarks de compreensão de vídeo.
Abrir Site

VideoPrism Situação do Tráfego Mais Recente

Total de Visitas Mensais

1016722

Taxa de Rejeição

59.66%

Média de Páginas por Visita

1.9

Duração Média da Visita

00:00:41

VideoPrism Tendência de Visitas

VideoPrism Distribuição Geográfica das Visitas

VideoPrism Fontes de Tráfego

VideoPrism Alternativas