ViTMatte

Sistema de recorte de imagem baseado em transformadores de visão pura pré-treinados

Produto ComumImagemRecorte de imagemTransformador de visão
O ViTMatte é um sistema de recorte de imagem baseado em transformadores de visão pura pré-treinados (Plain Vision Transformers, ViTs). Ele utiliza um mecanismo de atenção mista e um pescoço convolucional para otimizar o equilíbrio entre desempenho e cálculo, e introduz um módulo de captura de detalhes para complementar as informações de detalhe necessárias para o recorte. O ViTMatte é o primeiro trabalho a liberar o potencial dos ViTs no campo de recorte de imagem através de uma adaptação simples, herdando as vantagens dos ViTs em estratégias de pré-treinamento, design de arquitetura simples e estratégias de inferência flexíveis. Nos dois benchmarks de recorte de imagem mais utilizados, Composition-1k e Distinctions-646, o ViTMatte atingiu o desempenho de ponta, superando trabalhos anteriores com uma grande margem.
Abrir Site

ViTMatte Situação do Tráfego Mais Recente

Total de Visitas Mensais

474564576

Taxa de Rejeição

36.20%

Média de Páginas por Visita

6.1

Duração Média da Visita

00:06:34

ViTMatte Tendência de Visitas

ViTMatte Distribuição Geográfica das Visitas

ViTMatte Fontes de Tráfego

ViTMatte Alternativas