ReDrafter
Innovative Technologie zur Beschleunigung der LLM-Inferenz auf NVIDIA GPUs
Normales ProduktProduktivitätNVIDIA GPULLM-Inferenz
ReDrafter ist eine neuartige, prädiktive Dekodierungsmethode, die durch die Kombination eines RNN-Entwurfmodells und eines dynamischen Tree-Aufmerksamkeitsmechanismus die Inferenzgeschwindigkeit großer Sprachmodelle (LLMs) auf NVIDIA GPUs deutlich verbessert. Diese Technologie beschleunigt die Token-Generierung von LLMs, reduziert die für den Benutzer spürbare Latenz und senkt gleichzeitig den GPU-Verbrauch und den Energiebedarf. ReDrafter wurde vom Apple Machine Learning Research Team entwickelt und in Zusammenarbeit mit NVIDIA in das NVIDIA TensorRT-LLM-Inferenzbeschleunigungsframework integriert. Es bietet Entwicklern im Bereich Machine Learning, die NVIDIA GPUs verwenden, eine schnellere Token-Generierung.
ReDrafter Neueste Verkehrssituation
Monatliche Gesamtbesuche
197433
Absprungrate
73.71%
Durchschnittliche Seiten pro Besuch
2.1
Durchschnittliche Besuchsdauer
00:00:47