PowerInfer-2
Marco de inferencia de modelos lingüísticos grandes de alta eficiencia, diseñado específicamente para teléfonos inteligentes.
Producto ComúnProgramaciónTeléfono inteligenteModelo grande
PowerInfer-2 es un marco de inferencia optimizado para teléfonos inteligentes, compatible con modelos MoE de hasta 47B de parámetros, alcanzando una velocidad de inferencia de 11.68 tokens por segundo, 22 veces más rápido que otros marcos. A través del cómputo heterogéneo y la técnica de pipeline I/O-Compute, reduce significativamente el uso de memoria y aumenta la velocidad de inferencia. Este marco es ideal para escenarios que requieren la implementación de modelos grandes en dispositivos móviles, mejorando la privacidad de los datos y el rendimiento.