Transformadores de Visão com Desruído
Fornece características visuais limpas
Produto ComumImagemProcessamento de ImagensAprendizado Profundo
Transformadores de Visão com Desruído (DVT, do inglês *Denoising Vision Transformers*) são um novo modelo de ruído para Transformadores de Visão (ViTs). Ao dissecar a saída do ViT e introduzir um desruidor aprendível, o DVT consegue extrair características sem ruído, melhorando significativamente o desempenho de modelos baseados em Transformer em aplicações offline e funcionalidades online. O DVT não requer o re treinamento de ViTs pré-treinados existentes e pode ser aplicado imediatamente a qualquer arquitetura baseada em Transformer. Através de uma avaliação abrangente em vários conjuntos de dados, descobrimos que o DVT melhora consistentemente e significativamente os modelos de ponta existentes em tarefas semânticas e geométricas (por exemplo, +3,84 mIoU). Esperamos que nossa pesquisa incentive a reavaliação do design do ViT, especialmente sobre o uso ingênuo de embeddings posicionais.
Transformadores de Visão com Desruído Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44