Vision Mamba
双方向状態空間モデルに基づく、効率的な視覚表現学習フレームワーク
一般製品画像コンピュータビジョン深層学習
Vision Mambaは、双方向Mambaモジュールを用いて構築された、効率的な視覚表現学習フレームワークです。計算量とメモリ制限を克服し、高解像度画像に対するTransformer形式の理解を可能にします。自己注意機構に依存せず、位置エンコーディングと双方向状態空間モデルによって視覚表現を圧縮することで、より高い性能と計算効率、メモリ効率を実現します。ImageNet分類、COCO物体検出、ADE20kセマンティックセグメンテーションタスクにおいて、DeiTなどの従来のVision Transformerを上回る性能を示し、計算効率とメモリ効率はそれぞれ2.8倍、86.8%向上しています。
Vision Mamba 最新のトラフィック状況
月間総訪問数
474564576
直帰率
36.20%
平均ページ/訪問
6.1
平均訪問時間
00:06:34