Star-Attention

Technique d'inférence efficace pour les grands modèles de langage sur des séquences longues

Produit OrdinaireProgrammationNVIDIAGrands modèles de langage
Star-Attention est un nouveau mécanisme d'attention parcimonieuse par blocs proposé par NVIDIA, visant à améliorer l'efficacité de l'inférence des grands modèles de langage (LLM) basés sur Transformer pour les longues séquences. Cette technique améliore considérablement la vitesse d'inférence en deux étapes, tout en maintenant une précision de 95 à 100 %. Elle est compatible avec la plupart des LLM basés sur Transformer, sans nécessiter d'entraînement ni d'ajustement supplémentaires. Elle peut être combinée à d'autres méthodes d'optimisation telles que Flash Attention et la compression du cache KV pour des performances accrues.
Ouvrir le site Web

Star-Attention Dernière situation du trafic

Nombre total de visites mensuelles

474564576

Taux de rebond

36.20%

Nombre moyen de pages par visite

6.1

Durée moyenne de la visite

00:06:34

Star-Attention Tendance des visites

Star-Attention Distribution géographique des visites

Star-Attention Sources de trafic

Star-Attention Alternatives