Comprensión de Transformadores de Video
Explicación del descubrimiento conceptual del proceso de decisión de los transformadores de video.
Producto ComúnVideoVídeoExplicabilidad
Este artículo investiga el problema de la explicación conceptual de las representaciones de los transformadores de video. Específicamente, buscamos explicar el proceso de decisión de los transformadores de video basándonos en conceptos espacio-temporales de alto nivel que se descubren automáticamente. Estudios previos sobre la explicabilidad basada en conceptos se han centrado únicamente en tareas a nivel de imagen. En contraste, los modelos de video procesan una dimensión temporal adicional, aumentando la complejidad y presentando desafíos en la identificación de conceptos dinámicos que cambian con el tiempo. En este trabajo, abordamos sistemáticamente estos desafíos introduciendo el primer algoritmo de descubrimiento de conceptos de transformadores de video (VTCD). Para ello, proponemos un método eficiente y no supervisado para identificar unidades de representación (conceptos) en el transformador de video y para clasificar su importancia en la salida del modelo. Los conceptos resultantes son altamente interpretables, revelando mecanismos de razonamiento espacio-temporal y representaciones centradas en objetos en modelos de video no estructurados. Al realizar este análisis conjuntamente en diversas representaciones supervisadas y autosupervisadas, descubrimos que algunos de estos mecanismos son universales en los transformadores de video. Finalmente, demostramos que VTCD puede utilizarse para mejorar el rendimiento del modelo en tareas específicas.
Comprensión de Transformadores de Video Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44