ReDrafter
Technologie innovante d'accélération de l'inférence LLM sur les GPU NVIDIA
Produit OrdinaireProductivitéGPU NVIDIAInférence LLM
ReDrafter est une nouvelle méthode de décodage prédictive qui, en combinant un modèle d'ébauche RNN et un mécanisme d'attention arborescente dynamique, améliore considérablement la vitesse d'inférence des grands modèles de langage (LLM) sur les GPU NVIDIA. Cette technologie accélère la génération de jetons LLM, réduisant ainsi les latences perçues par les utilisateurs, tout en diminuant l'utilisation du GPU et la consommation d'énergie. Développé par l'équipe de recherche en apprentissage automatique d'Apple et intégré en collaboration avec NVIDIA dans le framework d'accélération de l'inférence NVIDIA TensorRT-LLM, ReDrafter offre aux développeurs de machine learning utilisant des GPU NVIDIA une capacité de génération de jetons plus rapide.
ReDrafter Dernière situation du trafic
Nombre total de visites mensuelles
197433
Taux de rebond
73.71%
Nombre moyen de pages par visite
2.1
Durée moyenne de la visite
00:00:47