PowerInfer

Motor de inferência de modelos de linguagem de grande porte de alta velocidade para implantação local.

Produto ComumProdutividadeModelo de LinguagemMotor de Inferência
PowerInfer é um motor que permite a inferência de modelos de linguagem de grande porte (LLMs) em alta velocidade em computadores pessoais, utilizando GPUs de consumo. Aproveitando a alta localidade na inferência de LLMs, ele pré-carrega neurônios ativados (“quentes”) na GPU, reduzindo significativamente a demanda de memória da GPU e a transferência de dados CPU-GPU. O PowerInfer também integra um preditor adaptativo e operadores esparsos sensíveis a neurônios, otimizando a eficiência da ativação neuronal e da esparsidade computacional. Ele pode realizar inferência em uma única GPU NVIDIA RTX 4090 a uma taxa média de geração de 13,20 tokens por segundo, apenas 18% mais lento que a GPU A100 de nível servidor topo de linha, mantendo a precisão do modelo.
Abrir Site

PowerInfer Situação do Tráfego Mais Recente

Total de Visitas Mensais

474564576

Taxa de Rejeição

36.20%

Média de Páginas por Visita

6.1

Duração Média da Visita

00:06:34

PowerInfer Tendência de Visitas

PowerInfer Distribuição Geográfica das Visitas

PowerInfer Fontes de Tráfego

PowerInfer Alternativas