VideoPrism
Modelo básico de compreensão de vídeo
Produto ComumVídeoCompreensão de VídeoCodificador
O VideoPrism é um modelo de codificação de vídeo universal, capaz de alcançar desempenho de ponta em diversas tarefas de compreensão de vídeo, incluindo classificação, localização, recuperação, geração de legendas e perguntas e respostas. Sua inovação reside em seu conjunto de dados de pré-treinamento, extremamente amplo e diversificado, contendo 36 milhões de pares vídeo-texto de alta qualidade e 582 milhões de clipes de vídeo com texto ruidoso. O pré-treinamento emprega uma estratégia de duas etapas: primeiro, utiliza aprendizado contrastivo para combinar vídeo e texto; em seguida, prevê blocos de vídeo mascarados, aproveitando ao máximo diferentes sinais de supervisão. Um modelo VideoPrism fixo pode ser diretamente adaptado a tarefas downstream, batendo o estado da arte em 30 benchmarks de compreensão de vídeo.
VideoPrism Situação do Tráfego Mais Recente
Total de Visitas Mensais
1016722
Taxa de Rejeição
59.66%
Média de Páginas por Visita
1.9
Duração Média da Visita
00:00:41