ViTMatte ist ein Bildaussparungssystem, das auf vorab trainierten rein visuellen Transformatoren (Plain Vision Transformers, ViTs) basiert. Es nutzt einen Misch-Aufmerksamkeitsmechanismus und einen Faltungshals, um ein optimales Gleichgewicht zwischen Leistung und Rechenaufwand zu erreichen, und führt ein Detailerfassungsmodul ein, um die für die Aussparung benötigten Detailinformationen zu ergänzen. ViTMatte ist die erste Arbeit, die das Potenzial von ViT im Bereich der Bildaussparung durch einfache Anpassung freisetzt und die Vorteile von ViT in Bezug auf Vorabtrainingstrategien, schlankes Architekturdesign und flexible Inferenzstrategien nutzt. In den beiden am häufigsten verwendeten Bildaussparungs-Benchmark-Tests, Composition-1k und Distinctions-646, erzielte ViTMatte die besten Ergebnisse und übertraf die vorherigen Arbeiten deutlich.