SwiftInfer
Biblioteca de aceleração de inferência de modelos de linguagem em larga escala baseada na estrutura TensorRT
Produto ComumProgramaçãoTensorRTChat Inteligente
SwiftInfer é uma biblioteca de aceleração de inferência de modelos de linguagem em larga escala (LLM) baseada na estrutura Nvidia TensorRT. Através da aceleração de GPU, melhora significativamente o desempenho de inferência de LLM em ambientes de produção. Este projeto implementou o mecanismo Attention Sink proposto para modelos de linguagem em streaming, suportando a geração de texto de comprimento ilimitado. O código é conciso, fácil de executar e suporta os principais modelos de linguagem em larga escala.
SwiftInfer Situação do Tráfego Mais Recente
Total de Visitas Mensais
474564576
Taxa de Rejeição
36.20%
Média de Páginas por Visita
6.1
Duração Média da Visita
00:06:34