VMamba es un modelo de espacio de estados visual que combina las ventajas de las redes neuronales convolucionales (CNN) y los transformadores visuales (ViT), logrando una complejidad lineal sin sacrificar la percepción global. Introduce el módulo Cross-Scan (CSM) para resolver el problema de la sensibilidad a la dirección, mostrando un rendimiento excelente en diversas tareas de percepción visual. Además, presenta una ventaja aún más significativa sobre los modelos de referencia existentes a medida que aumenta la resolución de la imagen.