Vision Mamba est un cadre d'apprentissage efficace des représentations visuelles, construit à l'aide de modules Mamba bidirectionnels. Il permet de surmonter les limites de calcul et de mémoire, offrant une compréhension de style Transformer pour les images haute résolution. Il ne repose pas sur le mécanisme d'auto-attention, mais compresse les représentations visuelles grâce à des embeddings de position et à un modèle d'espace d'états bidirectionnel, améliorant ainsi les performances, le calcul et l'efficacité mémoire. Ce cadre surpasse les Transformers visuels classiques comme DeiT sur les tâches de classification ImageNet, de détection d'objets COCO et de segmentation sémantique ADE20k, avec une amélioration de 2,8 fois en calcul et de 86,8 % en mémoire.