Vision Mamba
Hoch effizienter Rahmen für visuelles Repräsentationslernen basierend auf einem bidirektionalen Zustandsraummodell
Normales ProduktBildComputer VisionDeep Learning
Vision Mamba ist ein hoch effizienter Rahmen für visuelles Repräsentationslernen. Er basiert auf bidirektionalen Mamba-Modulen und ermöglicht die Transformer-artige Verarbeitung von hochauflösenden Bildern, selbst bei eingeschränkten Rechen- und Speicherressourcen. Im Gegensatz zu herkömmlichen Ansätzen verzichtet er auf die Selbstaufmerksamkeitsmechanismen. Stattdessen werden visuelle Repräsentationen mithilfe von Positions-Einbettungen und einem bidirektionalen Zustandsraummodell komprimiert, was zu einer höheren Performance bei gleichzeitig gesteigerter Rechen- und Speichereffizienz führt. In Vergleichstests zu klassischen visuellen Transformatoren wie DeiT übertrifft Vision Mamba die Performance bei Klassifikationsaufgaben (ImageNet), Objekterkennung (COCO) und semantischer Segmentierung (ADE20k) – bei gleichzeitiger Verbesserung der Rechen- und Speichereffizienz um das 2,8-fache bzw. 86,8%.
Vision Mamba Neueste Verkehrssituation
Monatliche Gesamtbesuche
474564576
Absprungrate
36.20%
Durchschnittliche Seiten pro Besuch
6.1
Durchschnittliche Besuchsdauer
00:06:34