No mundo da IA, fazer com que máquinas entendam vídeos é muito mais difícil do que entender imagens. Vídeos são dinâmicos, possuem áudio, movimento e uma série de cenários complexos. Antes, a IA lidava com vídeos como se fossem um enigma, frequentemente sem entender nada.
Mas o VideoPrism pode mudar tudo isso. Trata-se de um codificador de vídeo desenvolvido pela equipe de pesquisa do Google, que alcança o estado da arte em diversas tarefas de compreensão de vídeo usando apenas um modelo. Seja para classificar, localizar ou gerar legendas de vídeos, ou mesmo responder perguntas sobre eles, o VideoPrism consegue lidar com tudo com facilidade.
Como treinar o VideoPrism?
Treinar o VideoPrism é como ensinar uma criança a observar o mundo. Primeiro, você precisa mostrar a ele uma variedade de vídeos, desde o cotidiano até observações científicas. Em seguida, você precisa usar pares de vídeo-legenda de “alta qualidade”, e alguns textos paralelos com ruído (como transcrições de reconhecimento de voz automático) para treiná-lo.
Método de pré-treinamento
Dados: O VideoPrism utilizou 36 milhões de pares de vídeo-legenda de alta qualidade e 5820 milhões de clipes de vídeo com textos paralelos ruidosos.
Arquitetura do modelo: Baseado no transformador visual padrão (ViT), com design fatorial espacial e temporal.
Algoritmo de treinamento: Inclui dois estágios: treinamento contrastivo vídeo-texto e modelagem de vídeo mascarado.
Durante o treinamento, o VideoPrism passa por duas fases. Na primeira, ele aprende a relação entre vídeo e texto por meio de aprendizado contrastivo e destilação global-local. Na segunda, ele aprimora ainda mais a compreensão do conteúdo do vídeo por meio da modelagem de vídeo mascarado.
Os pesquisadores testaram o VideoPrism em várias tarefas de compreensão de vídeo, e os resultados foram surpreendentes. Em 33 testes de referência, o VideoPrism atingiu o estado da arte em 30 deles. Seja em questões de resposta a vídeos online ou em tarefas de visão computacional em áreas científicas, o VideoPrism demonstrou grande capacidade.
O surgimento do VideoPrism trouxe novas possibilidades para o campo da compreensão de vídeo em IA. Ele não apenas ajuda a IA a entender melhor o conteúdo de vídeos, mas também pode desempenhar um papel importante em educação, entretenimento, segurança e outras áreas.
No entanto, o VideoPrism também enfrenta alguns desafios, como lidar com vídeos longos e evitar vieses durante o treinamento. Essas são questões que precisam ser resolvidas em pesquisas futuras.
Endereço do artigo: https://arxiv.org/pdf/2402.13217