ViTMatte
Sistema de recorte de imagem baseado em transformadores de visão pura pré-treinados
Produto ComumImagemRecorte de imagemTransformador de visão
O ViTMatte é um sistema de recorte de imagem baseado em transformadores de visão pura pré-treinados (Plain Vision Transformers, ViTs). Ele utiliza um mecanismo de atenção mista e um pescoço convolucional para otimizar o equilíbrio entre desempenho e cálculo, e introduz um módulo de captura de detalhes para complementar as informações de detalhe necessárias para o recorte. O ViTMatte é o primeiro trabalho a liberar o potencial dos ViTs no campo de recorte de imagem através de uma adaptação simples, herdando as vantagens dos ViTs em estratégias de pré-treinamento, design de arquitetura simples e estratégias de inferência flexíveis. Nos dois benchmarks de recorte de imagem mais utilizados, Composition-1k e Distinctions-646, o ViTMatte atingiu o desempenho de ponta, superando trabalhos anteriores com uma grande margem.
ViTMatte Situação do Tráfego Mais Recente
Total de Visitas Mensais
474564576
Taxa de Rejeição
36.20%
Média de Páginas por Visita
6.1
Duração Média da Visita
00:06:34