SwiftInfer

Biblioteca de aceleração de inferência de modelos de linguagem em larga escala baseada na estrutura TensorRT

Produto ComumProgramaçãoTensorRTChat Inteligente
SwiftInfer é uma biblioteca de aceleração de inferência de modelos de linguagem em larga escala (LLM) baseada na estrutura Nvidia TensorRT. Através da aceleração de GPU, melhora significativamente o desempenho de inferência de LLM em ambientes de produção. Este projeto implementou o mecanismo Attention Sink proposto para modelos de linguagem em streaming, suportando a geração de texto de comprimento ilimitado. O código é conciso, fácil de executar e suporta os principais modelos de linguagem em larga escala.
Abrir Site

SwiftInfer Situação do Tráfego Mais Recente

Total de Visitas Mensais

474564576

Taxa de Rejeição

36.20%

Média de Páginas por Visita

6.1

Duração Média da Visita

00:06:34

SwiftInfer Tendência de Visitas

SwiftInfer Distribuição Geográfica das Visitas

SwiftInfer Fontes de Tráfego

SwiftInfer Alternativas