Récemment, des recherches d'Apple dans le domaine de l'apprentissage automatique ont montré qu'en collaboration avec NVIDIA, ils ont réussi à tripler la vitesse de génération des grands modèles linguistiques (LLM). Cette avancée est due à la technologie open source d'Apple, "Recurrent Drafter" (ReDrafter), qui utilise une méthode de décodage prédictive permettant d'améliorer considérablement l'efficacité de l'entraînement du modèle.

image.png

Par le passé, la création de grands modèles linguistiques était un processus long et coûteux, les entreprises devant souvent acheter de nombreux équipements matériels, augmentant ainsi leurs coûts d'exploitation. Début 2024, Apple a publié ReDrafter, une technologie combinant les réseaux neuronaux récurrents et une approche d'attention arborescente dynamique, permettant une génération et une vérification rapides des jetons, améliorant la vitesse de génération des jetons de 3,5 fois par rapport aux méthodes auto-régressives traditionnelles.

Cette semaine, Apple a annoncé qu'en collaboration avec NVIDIA, ReDrafter était intégré au framework d'accélération de l'inférence NVIDIA TensorRT-LLM. Cela permettra aux développeurs d'apprentissage automatique utilisant les GPU NVIDIA d'utiliser les fonctions d'accélération de ReDrafter en environnement de production. Il est important de noter que, bien que les serveurs multi-GPU hautes performances soient généralement coûteux, cette collaboration permet de réduire la latence tout en diminuant le nombre de matériels nécessaires, offrant ainsi une solution plus économique.

image.png

Lors de tests de référence effectués avec NVIDIA, l'efficacité de génération utilisant ReDrafter a été considérablement améliorée, la vitesse de génération de jetons par seconde en mode codage glouton étant multipliée par 2,7. Cela signifie que les développeurs peuvent obtenir plus de résultats en moins de temps, offrant ainsi une expérience utilisateur plus rapide.

Après avoir confirmé sa collaboration avec NVIDIA, Apple a également indiqué qu'elle envisageait d'utiliser les puces Trainium2 d'Amazon pour améliorer l'efficacité de l'entraînement des modèles. L'efficacité du pré-entraînement avec Trainium2 devrait être améliorée de 50 % par rapport au matériel existant.

Blog officiel : https://developer.nvidia.com/blog/nvidia-tensorrt-llm-now-supports-recurrent-drafting-for-optimizing-llm-inference/

Points clés :

🌟 Apple et NVIDIA collaborent pour tripler la vitesse de génération des grands modèles linguistiques.

🚀 La technologie open source ReDrafter, combinée aux réseaux neuronaux récurrents, améliore considérablement l'efficacité de l'entraînement des modèles.

💰 Cette collaboration contribue à réduire les coûts et offre aux développeurs d'apprentissage automatique des solutions plus efficaces.