SwiftInfer es una biblioteca de aceleración de inferencia para modelos lingüísticos a gran escala (LLM) basada en el framework Nvidia TensorRT. Mediante la aceleración por GPU, mejora considerablemente el rendimiento de inferencia de los LLM en entornos de producción. Este proyecto implementa el mecanismo Attention Sink propuesto para modelos lingüísticos en streaming, admitiendo la generación de texto de longitud ilimitada. El código es conciso, fácil de ejecutar y compatible con los principales modelos lingüísticos a gran escala.