SwiftInfer

Bibliothèque d'accélération de l'inférence des grands modèles linguistiques (LLM) basée sur le framework TensorRT

Produit OrdinaireProgrammationTensorRTChat intelligent
SwiftInfer est une bibliothèque d'accélération de l'inférence des grands modèles linguistiques (LLM) basée sur le framework Nvidia TensorRT. Grâce à l'accélération GPU, elle améliore considérablement les performances d'inférence des LLM en environnement de production. Ce projet implémente le mécanisme Attention Sink, conçu pour les modèles linguistiques en streaming, et supporte la génération de texte de longueur illimitée. Le code est concis, facile à exécuter et compatible avec les principaux grands modèles linguistiques.
Ouvrir le site Web

SwiftInfer Dernière situation du trafic

Nombre total de visites mensuelles

474564576

Taux de rebond

36.20%

Nombre moyen de pages par visite

6.1

Durée moyenne de la visite

00:06:34

SwiftInfer Tendance des visites

SwiftInfer Distribution géographique des visites

SwiftInfer Sources de trafic

SwiftInfer Alternatives