VMamba é um modelo de espaço de estados visual que combina as vantagens de redes neurais convolucionais (CNNs) e transformadores visuais (ViTs), alcançando complexidade linear sem sacrificar a percepção global. Introduz o módulo Cross-Scan (CSM) para resolver o problema de sensibilidade direcional, exibindo desempenho superior em diversas tarefas de percepção visual. Além disso, demonstra vantagens ainda mais significativas em comparação com modelos de referência existentes, à medida que a resolução da imagem aumenta.