PowerInfer
Motor de inferência de modelos de linguagem de grande porte de alta velocidade para implantação local.
Produto ComumProdutividadeModelo de LinguagemMotor de Inferência
PowerInfer é um motor que permite a inferência de modelos de linguagem de grande porte (LLMs) em alta velocidade em computadores pessoais, utilizando GPUs de consumo. Aproveitando a alta localidade na inferência de LLMs, ele pré-carrega neurônios ativados (“quentes”) na GPU, reduzindo significativamente a demanda de memória da GPU e a transferência de dados CPU-GPU. O PowerInfer também integra um preditor adaptativo e operadores esparsos sensíveis a neurônios, otimizando a eficiência da ativação neuronal e da esparsidade computacional. Ele pode realizar inferência em uma única GPU NVIDIA RTX 4090 a uma taxa média de geração de 13,20 tokens por segundo, apenas 18% mais lento que a GPU A100 de nível servidor topo de linha, mantendo a precisão do modelo.
PowerInfer Situação do Tráfego Mais Recente
Total de Visitas Mensais
474564576
Taxa de Rejeição
36.20%
Média de Páginas por Visita
6.1
Duração Média da Visita
00:06:34