Rauschreduzierende Vision Transformer
Liefert saubere visuelle Merkmale
Normales ProduktBildBildverarbeitungDeep Learning
Der Rauschreduzierende Vision Transformer (Denoising Vision Transformers, DVT) ist ein neuartiges Rauschmodell für Vision Transformer (ViTs). Durch die Zerlegung des ViT-Ausgabes und die Einführung eines lernfähigen Rauschreduzierers kann DVT rauscharme Merkmale extrahieren und so die Leistung von Transformer-basierten Modellen in Offline-Anwendungen und Online-Funktionen deutlich verbessern. DVT erfordert kein erneutes Training bestehender, vortrainierter ViTs und kann sofort auf jede Transformer-basierte Architektur angewendet werden. Durch umfassende Evaluierungen auf mehreren Datensätzen konnten wir feststellen, dass DVT bei semantischen und geometrischen Aufgaben eine durchgehend signifikante Verbesserung der bestehenden State-of-the-Art-Universalmodelle erzielt (z. B. +3,84 mIoU). Wir hoffen, dass unsere Forschung eine Neubewertung des ViT-Designs, insbesondere hinsichtlich der naiven Verwendung von Positions-Einbettungen, anregen wird.
Rauschreduzierende Vision Transformer Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44