ReDrafter ist eine neuartige, prädiktive Dekodierungsmethode, die durch die Kombination eines RNN-Entwurfmodells und eines dynamischen Tree-Aufmerksamkeitsmechanismus die Inferenzgeschwindigkeit großer Sprachmodelle (LLMs) auf NVIDIA GPUs deutlich verbessert. Diese Technologie beschleunigt die Token-Generierung von LLMs, reduziert die für den Benutzer spürbare Latenz und senkt gleichzeitig den GPU-Verbrauch und den Energiebedarf. ReDrafter wurde vom Apple Machine Learning Research Team entwickelt und in Zusammenarbeit mit NVIDIA in das NVIDIA TensorRT-LLM-Inferenzbeschleunigungsframework integriert. Es bietet Entwicklern im Bereich Machine Learning, die NVIDIA GPUs verwenden, eine schnellere Token-Generierung.