PowerInfer
Moteur d'inférence haute vitesse pour les grands modèles de langage, déployable localement
Produit OrdinaireProductivitéModèle linguistiqueMoteur d'inférence
PowerInfer est un moteur permettant l'inférence haute vitesse de grands modèles de langage sur un ordinateur personnel, en utilisant un GPU grand public. Il exploite la forte localité des calculs lors de l'inférence des LLM, préchargeant les neurones activés («chauds») sur le GPU afin de réduire significativement les besoins en mémoire GPU et les transferts de données CPU-GPU. PowerInfer intègre également un prédicteur adaptatif et des opérateurs de calcul creux conscients des neurones, optimisant l'efficacité de l'activation des neurones et de la parcimonie des calculs. Il est capable d'effectuer des inférences sur un seul GPU NVIDIA RTX 4090 à un rythme moyen de 13,20 jetons par seconde, soit seulement 18 % de moins qu'un GPU A100 haut de gamme de serveur, tout en maintenant la précision du modèle.
PowerInfer Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34