SwiftInfer
Biblioteca de aceleración de inferencia de modelos lingüísticos a gran escala basada en el framework TensorRT
Producto ComúnProgramaciónTensorRTChat inteligente
SwiftInfer es una biblioteca de aceleración de inferencia para modelos lingüísticos a gran escala (LLM) basada en el framework Nvidia TensorRT. Mediante la aceleración por GPU, mejora considerablemente el rendimiento de inferencia de los LLM en entornos de producción. Este proyecto implementa el mecanismo Attention Sink propuesto para modelos lingüísticos en streaming, admitiendo la generación de texto de longitud ilimitada. El código es conciso, fácil de ejecutar y compatible con los principales modelos lingüísticos a gran escala.
SwiftInfer Situación del tráfico más reciente
Total de visitas mensuales
474564576
Tasa de rebote
36.20%
Páginas promedio por visita
6.1
Duración promedio de la visita
00:06:34