SwiftInfer
Bibliothèque d'accélération de l'inférence des grands modèles linguistiques (LLM) basée sur le framework TensorRT
Produit OrdinaireProgrammationTensorRTChat intelligent
SwiftInfer est une bibliothèque d'accélération de l'inférence des grands modèles linguistiques (LLM) basée sur le framework Nvidia TensorRT. Grâce à l'accélération GPU, elle améliore considérablement les performances d'inférence des LLM en environnement de production. Ce projet implémente le mécanisme Attention Sink, conçu pour les modèles linguistiques en streaming, et supporte la génération de texte de longueur illimitée. Le code est concis, facile à exécuter et compatible avec les principaux grands modèles linguistiques.
SwiftInfer Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34