Comprensión de Transformadores de Video

Explicación del descubrimiento conceptual del proceso de decisión de los transformadores de video.

Producto ComúnVideoVídeoExplicabilidad
Este artículo investiga el problema de la explicación conceptual de las representaciones de los transformadores de video. Específicamente, buscamos explicar el proceso de decisión de los transformadores de video basándonos en conceptos espacio-temporales de alto nivel que se descubren automáticamente. Estudios previos sobre la explicabilidad basada en conceptos se han centrado únicamente en tareas a nivel de imagen. En contraste, los modelos de video procesan una dimensión temporal adicional, aumentando la complejidad y presentando desafíos en la identificación de conceptos dinámicos que cambian con el tiempo. En este trabajo, abordamos sistemáticamente estos desafíos introduciendo el primer algoritmo de descubrimiento de conceptos de transformadores de video (VTCD). Para ello, proponemos un método eficiente y no supervisado para identificar unidades de representación (conceptos) en el transformador de video y para clasificar su importancia en la salida del modelo. Los conceptos resultantes son altamente interpretables, revelando mecanismos de razonamiento espacio-temporal y representaciones centradas en objetos en modelos de video no estructurados. Al realizar este análisis conjuntamente en diversas representaciones supervisadas y autosupervisadas, descubrimos que algunos de estos mecanismos son universales en los transformadores de video. Finalmente, demostramos que VTCD puede utilizarse para mejorar el rendimiento del modelo en tareas específicas.
Abrir sitio web

Comprensión de Transformadores de Video Situación del tráfico más reciente

Total de visitas mensuales

29742941

Tasa de rebote

44.20%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:04:44

Comprensión de Transformadores de Video Tendencia de visitas

Comprensión de Transformadores de Video Distribución geográfica de las visitas

Comprensión de Transformadores de Video Fuentes de tráfico

Comprensión de Transformadores de Video Alternativas