Los Transformadores de Visión con Eliminación de Ruido (Denoising Vision Transformers, DVT) constituyen un novedoso modelo de eliminación de ruido para los transformadores de visión (ViTs). Al descomponer la salida de ViT e introducir un eliminador de ruido aprendible, DVT puede extraer características sin ruido, mejorando significativamente el rendimiento de los modelos basados en transformadores en aplicaciones sin conexión y funciones en línea. DVT no requiere volver a entrenar los ViTs preentrenados existentes y se puede aplicar inmediatamente a cualquier arquitectura basada en transformadores. A través de una exhaustiva evaluación en múltiples conjuntos de datos, hemos observado que DVT mejora de manera constante y significativa los modelos de vanguardia existentes en tareas semánticas y geométricas (por ejemplo, +3.84 mIoU). Esperamos que nuestra investigación fomente una reevaluación del diseño de ViT, especialmente en cuanto al uso ingenuo de las incrustaciones de posición.