Star-Attention
Technique d'inférence efficace pour les grands modèles de langage sur des séquences longues
Produit OrdinaireProgrammationNVIDIAGrands modèles de langage
Star-Attention est un nouveau mécanisme d'attention parcimonieuse par blocs proposé par NVIDIA, visant à améliorer l'efficacité de l'inférence des grands modèles de langage (LLM) basés sur Transformer pour les longues séquences. Cette technique améliore considérablement la vitesse d'inférence en deux étapes, tout en maintenant une précision de 95 à 100 %. Elle est compatible avec la plupart des LLM basés sur Transformer, sans nécessiter d'entraînement ni d'ajustement supplémentaires. Elle peut être combinée à d'autres méthodes d'optimisation telles que Flash Attention et la compression du cache KV pour des performances accrues.
Star-Attention Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34