PowerInfer

Moteur d'inférence haute vitesse pour les grands modèles de langage, déployable localement

Produit OrdinaireProductivitéModèle linguistiqueMoteur d'inférence
PowerInfer est un moteur permettant l'inférence haute vitesse de grands modèles de langage sur un ordinateur personnel, en utilisant un GPU grand public. Il exploite la forte localité des calculs lors de l'inférence des LLM, préchargeant les neurones activés («chauds») sur le GPU afin de réduire significativement les besoins en mémoire GPU et les transferts de données CPU-GPU. PowerInfer intègre également un prédicteur adaptatif et des opérateurs de calcul creux conscients des neurones, optimisant l'efficacité de l'activation des neurones et de la parcimonie des calculs. Il est capable d'effectuer des inférences sur un seul GPU NVIDIA RTX 4090 à un rythme moyen de 13,20 jetons par seconde, soit seulement 18 % de moins qu'un GPU A100 haut de gamme de serveur, tout en maintenant la précision du modèle.
Ouvrir le site Web

PowerInfer Dernière situation du trafic

Nombre total de visites mensuelles

474564576

Taux de rebond

36.20%

Nombre moyen de pages par visite

6.1

Durée moyenne de la visite

00:06:34

PowerInfer Tendance des visites

PowerInfer Distribution géographique des visites

PowerInfer Sources de trafic

PowerInfer Alternatives