SwiftInfer

Biblioteca de aceleración de inferencia de modelos lingüísticos a gran escala basada en el framework TensorRT

Producto ComúnProgramaciónTensorRTChat inteligente
SwiftInfer es una biblioteca de aceleración de inferencia para modelos lingüísticos a gran escala (LLM) basada en el framework Nvidia TensorRT. Mediante la aceleración por GPU, mejora considerablemente el rendimiento de inferencia de los LLM en entornos de producción. Este proyecto implementa el mecanismo Attention Sink propuesto para modelos lingüísticos en streaming, admitiendo la generación de texto de longitud ilimitada. El código es conciso, fácil de ejecutar y compatible con los principales modelos lingüísticos a gran escala.
Abrir sitio web

SwiftInfer Situación del tráfico más reciente

Total de visitas mensuales

474564576

Tasa de rebote

36.20%

Páginas promedio por visita

6.1

Duración promedio de la visita

00:06:34

SwiftInfer Tendencia de visitas

SwiftInfer Distribución geográfica de las visitas

SwiftInfer Fuentes de tráfico

SwiftInfer Alternativas