Compreendendo Transformadores de Vídeo
Explicação da descoberta conceitual no processo de decisão de Transformadores de Vídeo
Produto ComumVídeoVídeoExplicabilidade
Este artigo investiga o problema da explicação conceitual de representações de Transformadores de Vídeo. Especificamente, buscamos explicar o processo de decisão de Transformadores de Vídeo com base em conceitos espaço-temporais de alto nível, que são descobertos automaticamente. Pesquisas anteriores sobre explicabilidade baseada em conceitos se concentraram apenas em tarefas de nível de imagem. Em contraste, modelos de vídeo lidam com uma dimensão temporal adicional, aumentando a complexidade e apresentando desafios na identificação de conceitos dinâmicos que mudam com o tempo. Neste trabalho, abordamos sistematicamente esses desafios introduzindo o primeiro algoritmo de Descoberta Conceitual de Transformadores de Vídeo (VTCD). Para isso, propomos um método eficiente e não supervisionado para identificar unidades de representação (conceitos) de Transformadores de Vídeo e classificar sua importância na saída do modelo. Os conceitos resultantes são altamente explicáveis, revelando mecanismos de raciocínio espaço-temporal e representações centradas em objetos em modelos de vídeo não estruturados. Ao conduzir essa análise conjuntamente em diversas representações supervisionadas e auto-supervisionadas, descobrimos que alguns desses mecanismos são universais em Transformadores de Vídeo. Finalmente, demonstramos que o VTCD pode ser usado para melhorar o desempenho do modelo em tarefas específicas.
Compreendendo Transformadores de Vídeo Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44