Flash-Decoding

Flash-Decoding für die Inferenz mit langen Kontexten

Internationale AuswahlProgrammierungInferenzAufmerksamkeitsmechanismus
Flash-Decoding ist eine Technik für die Inferenz mit langen Kontexten, die die Aufmerksamkeitsmechanismen in der Inferenz deutlich beschleunigt und so die Generierungsgeschwindigkeit um das Achtfache erhöht. Die Technik lädt Schlüssel und Werte parallel und skaliert und kombiniert die Ergebnisse anschließend separat, um korrekte Aufmerksamkeitsausgaben zu gewährleisten und eine schnellere Inferenz zu ermöglichen. Flash-Decoding eignet sich für große Sprachmodelle und kann lange Dokumente, lange Dialoge oder ganze Codebasen als lange Kontexte verarbeiten. Flash-Decoding wird bereits in den Paketen FlashAttention und xFormers bereitgestellt. Es wählt automatisch Flash-Decoding oder FlashAttention aus und bietet auch effiziente Triton-Kerne.
Website öffnen

Flash-Decoding Neueste Verkehrssituation

Monatliche Gesamtbesuche

1045269

Absprungrate

41.72%

Durchschnittliche Seiten pro Besuch

3.3

Durchschnittliche Besuchsdauer

00:02:41

Flash-Decoding Besuchstrend

Flash-Decoding Geografische Verteilung der Besuche

Flash-Decoding Traffic-Quellen

Flash-Decoding Alternativen