Vision Mamba
基于双向状态空间模型的高效视觉表示学习框架
普通产品图像计算机视觉深度学习
Vision Mamba是一个高效的视觉表示学习框架,使用双向Mamba模块构建,可以克服计算和内存限制,进行高分辨率图像的Transformer风格理解。它不依赖自注意力机制,通过位置嵌入和双向状态空间模型压缩视觉表示,实现更高性能,计算和内存效率也更好。该框架在 ImageNet分类、COCO目标检测和ADE20k语义分割任务上,性能优于经典的视觉Transformers,如DeiT,但计算和内存效率提高2.8倍和86.8%。
Vision Mamba 最新流量情况
月总访问量
494758773
跳出率
37.69%
平均页面访问数
5.7
平均访问时长
00:06:29