Rauschreduzierende Vision Transformer

Liefert saubere visuelle Merkmale

Normales ProduktBildBildverarbeitungDeep Learning
Der Rauschreduzierende Vision Transformer (Denoising Vision Transformers, DVT) ist ein neuartiges Rauschmodell für Vision Transformer (ViTs). Durch die Zerlegung des ViT-Ausgabes und die Einführung eines lernfähigen Rauschreduzierers kann DVT rauscharme Merkmale extrahieren und so die Leistung von Transformer-basierten Modellen in Offline-Anwendungen und Online-Funktionen deutlich verbessern. DVT erfordert kein erneutes Training bestehender, vortrainierter ViTs und kann sofort auf jede Transformer-basierte Architektur angewendet werden. Durch umfassende Evaluierungen auf mehreren Datensätzen konnten wir feststellen, dass DVT bei semantischen und geometrischen Aufgaben eine durchgehend signifikante Verbesserung der bestehenden State-of-the-Art-Universalmodelle erzielt (z. B. +3,84 mIoU). Wir hoffen, dass unsere Forschung eine Neubewertung des ViT-Designs, insbesondere hinsichtlich der naiven Verwendung von Positions-Einbettungen, anregen wird.
Website öffnen

Rauschreduzierende Vision Transformer Neueste Verkehrssituation

Monatliche Gesamtbesuche

29742941

Absprungrate

44.20%

Durchschnittliche Seiten pro Besuch

5.9

Durchschnittliche Besuchsdauer

00:04:44

Rauschreduzierende Vision Transformer Besuchstrend

Rauschreduzierende Vision Transformer Geografische Verteilung der Besuche

Rauschreduzierende Vision Transformer Traffic-Quellen

Rauschreduzierende Vision Transformer Alternativen