FlashMLA ist ein hocheffizienter MLA-Dekodieren-Kernel, der speziell für Variablenlängen-Sequenzdienste optimiert wurde. Er basiert auf CUDA 12.3 und höher und unterstützt PyTorch 2.0 und höher. Der Hauptvorteil von FlashMLA liegt in seinem effizienten Speicherzugriff und seiner hohen Rechenleistung. Auf einer H800 SXM5 erreicht er eine Speicherbandbreite von bis zu 3000 GB/s und eine Rechenleistung von 580 TFLOPS. Diese Technologie ist besonders wichtig für Deep-Learning-Aufgaben, die eine massive Parallelverarbeitung und ein effizientes Speichermanagement erfordern, insbesondere im Bereich der Natursprachverarbeitung und des Computer Vision. Die Entwicklung von FlashMLA wurde von FlashAttention 2 & 3 und dem Cutlass-Projekt inspiriert und soll Forschern und Entwicklern ein effizientes Berechnungswerkzeug zur Verfügung stellen.