ReDrafter

Technologie innovante d'accélération de l'inférence LLM sur les GPU NVIDIA

Produit OrdinaireProductivitéGPU NVIDIAInférence LLM

ReDrafter est une nouvelle méthode de décodage prédictive qui, en combinant un modèle d'ébauche RNN et un mécanisme d'attention arborescente dynamique, améliore considérablement la vitesse d'inférence des grands modèles de langage (LLM) sur les GPU NVIDIA. Cette technologie accélère la génération de jetons LLM, réduisant ainsi les latences perçues par les utilisateurs, tout en diminuant l'utilisation du GPU et la consommation d'énergie. Développé par l'équipe de recherche en apprentissage automatique d'Apple et intégré en collaboration avec NVIDIA dans le framework d'accélération de l'inférence NVIDIA TensorRT-LLM, ReDrafter offre aux développeurs de machine learning utilisant des GPU NVIDIA une capacité de génération de jetons plus rapide.

- Décodage prédictif : accélération de la génération de jetons LLM à l'aide d'un modèle d'ébauche RNN et d'un mécanisme d'attention arborescente dynamique.
- Amélioration des performances : sur les modèles open source
ReDrafter permet d'obtenir une amélioration de la vitesse allant jusqu'à 3
5 jetons par étape de génération.
- Intégration de TensorRT-LLM : en collaboration avec NVIDIA
ReDrafter est intégré au framework TensorRT-LLM
améliorant ainsi la compatibilité du framework avec les modèles complexes et les méthodes de décodage.
- Réduction de la latence : amélioration de l'efficacité de l'inférence
réduisant ainsi considérablement la latence ressentie par les utilisateurs lors de l'utilisation de LLM.
- Réduction des coûts : réduction de l'utilisation du GPU et de la consommation d'énergie

Le public cible est constitué de développeurs de machine learning
en particulier ceux qui utilisent des GPU NVIDIA pour l'inférence LLM. ReDrafter
en améliorant la vitesse d'inférence et en réduisant la latence
permet à ces développeurs de déployer et d'optimiser plus rapidement leurs applications LLM
d'améliorer l'expérience utilisateur et de réduire les coûts d'exploitation.

Accélération du processus d'inférence de modèles de production à plusieurs milliards de paramètres à l'aide de ReDrafter.
Déploiement de ReDrafter sur un GPU NVIDIA pour obtenir une amélioration de 2
7 fois du nombre de jetons générés par seconde.
Intégration de ReDrafter à TensorRT-LLM pour optimiser les performances d'inférence LLM.

1. Installez et configurez l'environnement NVIDIA TensorRT-LLM.
2. Récupérez le code source open source de ReDrafter sur GitHub.
3. Intégrez ReDrafter au framework TensorRT-LLM en suivant les instructions de la documentation.
4. Préparez ou sélectionnez un modèle LLM open source pour les tests.
5. Utilisez ReDrafter pour accélérer l'inférence LLM.