O ViTMatte é um sistema de recorte de imagem baseado em transformadores de visão pura pré-treinados (Plain Vision Transformers, ViTs). Ele utiliza um mecanismo de atenção mista e um pescoço convolucional para otimizar o equilíbrio entre desempenho e cálculo, e introduz um módulo de captura de detalhes para complementar as informações de detalhe necessárias para o recorte. O ViTMatte é o primeiro trabalho a liberar o potencial dos ViTs no campo de recorte de imagem através de uma adaptação simples, herdando as vantagens dos ViTs em estratégias de pré-treinamento, design de arquitetura simples e estratégias de inferência flexíveis. Nos dois benchmarks de recorte de imagem mais utilizados, Composition-1k e Distinctions-646, o ViTMatte atingiu o desempenho de ponta, superando trabalhos anteriores com uma grande margem.