PowerInfer-2

Estrutura de inferência de modelo de linguagem grande eficiente, projetada para smartphones

Produto ComumProgramaçãoSmartphoneModelo de linguagem grande
O PowerInfer-2 é uma estrutura de inferência otimizada para smartphones, suportando modelos MoE com até 47B de parâmetros e alcançando uma velocidade de inferência de 11,68 tokens por segundo, 22 vezes mais rápido que outras estruturas. Através de computação heterogênea e técnicas de pipeline I/O-Compute, ele reduz significativamente o uso de memória e aumenta a velocidade de inferência. Essa estrutura é ideal para cenários que exigem a implantação de modelos grandes em dispositivos móveis, aprimorando a privacidade de dados e o desempenho.
Abrir Site

PowerInfer-2 Alternativas