ReDrafter

Innovative Technologie zur Beschleunigung der LLM-Inferenz auf NVIDIA GPUs

Normales ProduktProduktivitätNVIDIA GPULLM-Inferenz
ReDrafter ist eine neuartige, prädiktive Dekodierungsmethode, die durch die Kombination eines RNN-Entwurfmodells und eines dynamischen Tree-Aufmerksamkeitsmechanismus die Inferenzgeschwindigkeit großer Sprachmodelle (LLMs) auf NVIDIA GPUs deutlich verbessert. Diese Technologie beschleunigt die Token-Generierung von LLMs, reduziert die für den Benutzer spürbare Latenz und senkt gleichzeitig den GPU-Verbrauch und den Energiebedarf. ReDrafter wurde vom Apple Machine Learning Research Team entwickelt und in Zusammenarbeit mit NVIDIA in das NVIDIA TensorRT-LLM-Inferenzbeschleunigungsframework integriert. Es bietet Entwicklern im Bereich Machine Learning, die NVIDIA GPUs verwenden, eine schnellere Token-Generierung.
Website öffnen

ReDrafter Neueste Verkehrssituation

Monatliche Gesamtbesuche

197433

Absprungrate

73.71%

Durchschnittliche Seiten pro Besuch

2.1

Durchschnittliche Besuchsdauer

00:00:47

ReDrafter Besuchstrend

ReDrafter Geografische Verteilung der Besuche

ReDrafter Traffic-Quellen