Verständnis von Video-Transformatoren
Konzeptfindung zur Erklärung des Entscheidungsprozesses von Video-Transformatoren
Normales ProduktVideoVideoInterpretierbarkeit
Diese Arbeit befasst sich mit der konzeptionellen Erklärung der Repräsentationen von Video-Transformatoren. Im Einzelnen versuchen wir, den Entscheidungsprozess von Video-Transformatoren auf der Grundlage von automatisch ermittelten, hochrangigen räumlich-zeitlichen Konzepten zu erklären. Bisherige Arbeiten zur konzeptbasierten Interpretierbarkeit konzentrierten sich ausschließlich auf Aufgaben auf Bildebene. Im Gegensatz dazu verarbeiten Videomodelle die zusätzliche Zeitdimension, was die Komplexität erhöht und Herausforderungen bei der Erkennung dynamischer Konzepte im Zeitverlauf mit sich bringt. In dieser Arbeit begegnen wir diesen Herausforderungen systematisch durch die Einführung des ersten Algorithmus zur Konzeptfindung für Video-Transformatoren (VTCD). Dazu schlagen wir eine effiziente, unüberwachte Methode zur Identifizierung von Repräsentationseinheiten (Konzepte) von Video-Transformatoren vor und ordnen deren Bedeutung für die Modell-Ausgabe. Die resultierenden Konzepte sind hochgradig interpretierbar und offenbaren räumlich-zeitliche Inferenzmechanismen und objektzentrierte Repräsentationen in unstrukturierten Videomodellen. Durch die Durchführung dieser Analyse in Kombination mit verschiedenen überwachten und selbstüberwachten Repräsentationen entdecken wir einige dieser Mechanismen als universell in Video-Transformatoren. Schließlich zeigen wir, dass VTCD zur Verbesserung der Modellleistung bei Feinheiten-Aufgaben eingesetzt werden kann.
Verständnis von Video-Transformatoren Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44