ViTMatte

Verbesserung der Bildaussparung mithilfe eines vorab trainierten rein visuellen Transformators

Normales ProduktBildBildaussparungVisueller Transformator
ViTMatte ist ein Bildaussparungssystem, das auf vorab trainierten rein visuellen Transformatoren (Plain Vision Transformers, ViTs) basiert. Es nutzt einen Misch-Aufmerksamkeitsmechanismus und einen Faltungshals, um ein optimales Gleichgewicht zwischen Leistung und Rechenaufwand zu erreichen, und führt ein Detailerfassungsmodul ein, um die für die Aussparung benötigten Detailinformationen zu ergänzen. ViTMatte ist die erste Arbeit, die das Potenzial von ViT im Bereich der Bildaussparung durch einfache Anpassung freisetzt und die Vorteile von ViT in Bezug auf Vorabtrainingstrategien, schlankes Architekturdesign und flexible Inferenzstrategien nutzt. In den beiden am häufigsten verwendeten Bildaussparungs-Benchmark-Tests, Composition-1k und Distinctions-646, erzielte ViTMatte die besten Ergebnisse und übertraf die vorherigen Arbeiten deutlich.
Website öffnen

ViTMatte Neueste Verkehrssituation

Monatliche Gesamtbesuche

474564576

Absprungrate

36.20%

Durchschnittliche Seiten pro Besuch

6.1

Durchschnittliche Besuchsdauer

00:06:34

ViTMatte Besuchstrend

ViTMatte Geografische Verteilung der Besuche

ViTMatte Traffic-Quellen