ViTMatte
Verbesserung der Bildaussparung mithilfe eines vorab trainierten rein visuellen Transformators
Normales ProduktBildBildaussparungVisueller Transformator
ViTMatte ist ein Bildaussparungssystem, das auf vorab trainierten rein visuellen Transformatoren (Plain Vision Transformers, ViTs) basiert. Es nutzt einen Misch-Aufmerksamkeitsmechanismus und einen Faltungshals, um ein optimales Gleichgewicht zwischen Leistung und Rechenaufwand zu erreichen, und führt ein Detailerfassungsmodul ein, um die für die Aussparung benötigten Detailinformationen zu ergänzen. ViTMatte ist die erste Arbeit, die das Potenzial von ViT im Bereich der Bildaussparung durch einfache Anpassung freisetzt und die Vorteile von ViT in Bezug auf Vorabtrainingstrategien, schlankes Architekturdesign und flexible Inferenzstrategien nutzt. In den beiden am häufigsten verwendeten Bildaussparungs-Benchmark-Tests, Composition-1k und Distinctions-646, erzielte ViTMatte die besten Ergebnisse und übertraf die vorherigen Arbeiten deutlich.
ViTMatte Neueste Verkehrssituation
Monatliche Gesamtbesuche
474564576
Absprungrate
36.20%
Durchschnittliche Seiten pro Besuch
6.1
Durchschnittliche Besuchsdauer
00:06:34