Flash-Decoding
Flash-Decoding für die Inferenz mit langen Kontexten
Internationale AuswahlProgrammierungInferenzAufmerksamkeitsmechanismus
Flash-Decoding ist eine Technik für die Inferenz mit langen Kontexten, die die Aufmerksamkeitsmechanismen in der Inferenz deutlich beschleunigt und so die Generierungsgeschwindigkeit um das Achtfache erhöht. Die Technik lädt Schlüssel und Werte parallel und skaliert und kombiniert die Ergebnisse anschließend separat, um korrekte Aufmerksamkeitsausgaben zu gewährleisten und eine schnellere Inferenz zu ermöglichen. Flash-Decoding eignet sich für große Sprachmodelle und kann lange Dokumente, lange Dialoge oder ganze Codebasen als lange Kontexte verarbeiten. Flash-Decoding wird bereits in den Paketen FlashAttention und xFormers bereitgestellt. Es wählt automatisch Flash-Decoding oder FlashAttention aus und bietet auch effiziente Triton-Kerne.
Flash-Decoding Neueste Verkehrssituation
Monatliche Gesamtbesuche
1045269
Absprungrate
41.72%
Durchschnittliche Seiten pro Besuch
3.3
Durchschnittliche Besuchsdauer
00:02:41