ReDrafter

Innovative Technologie zur Beschleunigung der LLM-Inferenz auf NVIDIA GPUs

Normales ProduktProduktivitätNVIDIA GPULLM-Inferenz

ReDrafter ist eine neuartige, prädiktive Dekodierungsmethode, die durch die Kombination eines RNN-Entwurfmodells und eines dynamischen Tree-Aufmerksamkeitsmechanismus die Inferenzgeschwindigkeit großer Sprachmodelle (LLMs) auf NVIDIA GPUs deutlich verbessert. Diese Technologie beschleunigt die Token-Generierung von LLMs, reduziert die für den Benutzer spürbare Latenz und senkt gleichzeitig den GPU-Verbrauch und den Energiebedarf. ReDrafter wurde vom Apple Machine Learning Research Team entwickelt und in Zusammenarbeit mit NVIDIA in das NVIDIA TensorRT-LLM-Inferenzbeschleunigungsframework integriert. Es bietet Entwicklern im Bereich Machine Learning, die NVIDIA GPUs verwenden, eine schnellere Token-Generierung.

- Prädiktive Decodierung: Beschleunigung der LLM-Token-Generierung mithilfe eines RNN-Entwurfmodells und eines dynamischen Tree-Aufmerksamkeitsmechanismus.
- Leistungssteigerung: ReDrafter kann bei Open-Source-Modellen eine bis zu 3
5-fache Geschwindigkeitssteigerung pro Token-Generierungsschritt erreichen.
- TensorRT-LLM-Integration: In Zusammenarbeit mit NVIDIA wurde ReDrafter in das TensorRT-LLM-Framework integriert
wodurch die Kompatibilität des Frameworks mit komplexen Modellen und Dekodierungsmethoden verbessert wurde.
- Reduzierung der Latenz: Durch die Steigerung der Inferenzeffizienz wird die Latenz bei der Verwendung von LLMs deutlich reduziert.
- Kostenreduktion: Reduzierter GPU-Verbrauch und Energiebedarf senken die Rechenkosten.
- Unterstützung von Open-Source-Modellen: ReDrafter unterstützt verschiedene Open-Source-LLMs
was die Verbreitung und den Anwendungsbereich der Technologie erweitert.
- Einfache Bereitstellung: ML-Entwickler können ReDrafter problemlos in produktiven LLM-Anwendungen einsetzen und von den Vorteilen der Beschleunigung profitieren.

Die Zielgruppe sind Machine-Learning-Entwickler
insbesondere solche
die NVIDIA GPUs für die LLM-Inferenz verwenden. ReDrafter ermöglicht es diesen Entwicklern durch höhere Inferenzgeschwindigkeit und geringere Latenz
ihre LLM-Anwendungen schneller bereitzustellen und zu optimieren
die Benutzererfahrung zu verbessern und die Betriebskosten zu senken.

Beschleunigung der Inferenz von Produktionsmodellen mit Milliarden von Parametern mithilfe von ReDrafter.
Bereitstellung von ReDrafter auf einer NVIDIA GPU zur Erzielung einer 2
7-fachen Steigerung der generierten Tokens pro Sekunde.
Integration von ReDrafter in TensorRT-LLM zur Optimierung der LLM-Inferenzleistung.

1. Installation und Konfiguration der NVIDIA TensorRT-LLM-Umgebung.
2. Abrufen des Open-Source-Codes von ReDrafter von GitHub.
3. Integration von ReDrafter in das TensorRT-LLM-Framework gemäß den Anweisungen in der Dokumentation.
4. Vorbereitung oder Auswahl eines Open-Source-LLM-Modells für Tests.
5. Verwendung von ReDrafter zur Beschleunigung der LLM-Inferenz.

Website öffnen

ReDrafter Neueste Verkehrssituation

Monatliche Gesamtbesuche

197433

Absprungrate

73.71%

Durchschnittliche Seiten pro Besuch

2.1

Durchschnittliche Besuchsdauer

00:00:47

ReDrafter Besuchstrend

ReDrafter Geografische Verteilung der Besuche

ReDrafter Traffic-Quellen

ReDrafter Alternativen

ReDrafter — Innovative Technologie zur Beschleunigung der LLM-Inferenz auf NVIDIA GPUs

Produktivität

•NVIDIA GPU•LLM-Inferenz

AIKit — Eine umfassende Open-Source-Lösung zum Hosten, Bereitstellen, Erstellen und Feinabstimmen großer Sprachmodelle.

Programmierung

•Open Source•Große Sprachmodelle

210

fluidstack.io — Führende GPU-Cloud für AI- und LLM-Training in unbegrenztem Umfang