Vision Mamba
Cadre d'apprentissage efficace des représentations visuelles basé sur un modèle d'espace d'états bidirectionnel.
Produit OrdinaireImageVision par ordinateurApprentissage profond
Vision Mamba est un cadre d'apprentissage efficace des représentations visuelles, construit à l'aide de modules Mamba bidirectionnels. Il permet de surmonter les limites de calcul et de mémoire, offrant une compréhension de style Transformer pour les images haute résolution. Il ne repose pas sur le mécanisme d'auto-attention, mais compresse les représentations visuelles grâce à des embeddings de position et à un modèle d'espace d'états bidirectionnel, améliorant ainsi les performances, le calcul et l'efficacité mémoire. Ce cadre surpasse les Transformers visuels classiques comme DeiT sur les tâches de classification ImageNet, de détection d'objets COCO et de segmentation sémantique ADE20k, avec une amélioration de 2,8 fois en calcul et de 86,8 % en mémoire.
Vision Mamba Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34