PowerInfer: Aceleração de Inferência de LLM

Os modelos de linguagem grandes generativos (LLMs) são conhecidos por seu excelente desempenho em diversas tarefas, incluindo processamento complexo de linguagem natural, escrita criativa, perguntas e respostas e geração de código. LLMs já rodam em sistemas locais de fácil uso, incluindo PCs domésticos com GPUs de consumo.

O PowerInfer, um motor de inferência híbrido GPU-CPU que aproveita esse conhecimento, pré-carrega neurônios "frios" (pouco usados) na CPU para cálculo e neurônios "quentes" (frequentemente usados) na GPU para acesso imediato. Avaliações demonstram que o PowerInfer é 11,69 vezes mais rápido que o sistema llama.cpp atual, mantendo a fidelidade do modelo.

Em resumo, o PowerInfer melhora significativamente a velocidade de inferência de LLMs, mostrando-se promissor para execução em desktops com recursos de GPU limitados.