SwiftInfer est une bibliothèque d'accélération de l'inférence des grands modèles linguistiques (LLM) basée sur le framework Nvidia TensorRT. Grâce à l'accélération GPU, elle améliore considérablement les performances d'inférence des LLM en environnement de production. Ce projet implémente le mécanisme Attention Sink, conçu pour les modèles linguistiques en streaming, et supporte la génération de texte de longueur illimitée. Le code est concis, facile à exécuter et compatible avec les principaux grands modèles linguistiques.