FlashMLA एक Hopper GPU के लिए अनुकूलित कुशल MLA डिकोडिंग कर्नल है, जिसे विशेष रूप से परिवर्तनशील लंबाई वाली अनुक्रम सेवाओं के लिए डिज़ाइन किया गया है। यह CUDA 12.3 और इसके बाद के संस्करणों पर आधारित है, और PyTorch 2.0 और इसके बाद के संस्करणों का समर्थन करता है। FlashMLA का मुख्य लाभ इसकी कुशल मेमोरी एक्सेस और कम्प्यूटेशनल प्रदर्शन है, जो H800 SXM5 पर 3000 GB/s तक की मेमोरी बैंडविड्थ और 580 TFLOPS तक की कम्प्यूटेशनल क्षमता प्राप्त कर सकता है। यह तकनीक बड़े पैमाने पर समानांतर कम्प्यूटेशन और कुशल मेमोरी प्रबंधन की आवश्यकता वाले गहन शिक्षण कार्यों के लिए महत्वपूर्ण है, खासकर प्राकृतिक भाषा प्रसंस्करण और कंप्यूटर विजन क्षेत्रों में। FlashMLA का विकास FlashAttention 2 और 3 और cutlass प्रोजेक्ट से प्रेरित है, जिसका उद्देश्य शोधकर्ताओं और डेवलपर्स को एक कुशल कम्प्यूटेशनल उपकरण प्रदान करना है।