PowerInfer

Moteur d'inférence haute vitesse pour les grands modèles de langage, déployable localement

Produit OrdinaireProductivitéModèle linguistiqueMoteur d'inférence

PowerInfer est un moteur permettant l'inférence haute vitesse de grands modèles de langage sur un ordinateur personnel, en utilisant un GPU grand public. Il exploite la forte localité des calculs lors de l'inférence des LLM, préchargeant les neurones activés («chauds») sur le GPU afin de réduire significativement les besoins en mémoire GPU et les transferts de données CPU-GPU. PowerInfer intègre également un prédicteur adaptatif et des opérateurs de calcul creux conscients des neurones, optimisant l'efficacité de l'activation des neurones et de la parcimonie des calculs. Il est capable d'effectuer des inférences sur un seul GPU NVIDIA RTX 4090 à un rythme moyen de 13,20 jetons par seconde, soit seulement 18 % de moins qu'un GPU A100 haut de gamme de serveur, tout en maintenant la précision du modèle.

Best AI Websites & Tools

PowerInfer

PowerInfer Dernière situation du trafic

PowerInfer Tendance des visites

PowerInfer Distribution géographique des visites

PowerInfer Sources de trafic

PowerInfer Alternatives

PowerInfer — Moteur d'inférence haute vitesse pour les grands modèles de langage, déployable localement

Inception Labs — Inception Labs lance une nouvelle génération de modèles linguistiques de grande diffusion, offrant une capacité de génération de langage extrêmement rapide, efficace et de haute qualité.

OpenManus — OpenManus est un projet d'agent intelligent open source utilisable sans code d'invitation.

Instella — Instella est un modèle linguistique open source haute performance développé par AMD, conçu pour accélérer le développement des modèles linguistiques open source.

GPT-4.5 — GPT-4.5, le dernier modèle linguistique lancé par OpenAI, se concentre sur l'amélioration des capacités d'apprentissage non supervisé et offre une expérience interactive plus naturelle.

Gemini 2.0 Flash-Lite — Gemini 2.0 Flash-Lite est un modèle linguistique efficace, optimisé pour le traitement de longs textes et de nombreux scénarios d'application.

Phi-4-mini-instruct — Phi-4-mini-instruct est un modèle linguistique léger et open source, axé sur les données intensives en inférence de haute qualité.

DeepSeek Japonais — DeepSeek est un modèle linguistique IA avancé, maîtrisant le raisonnement logique, les mathématiques et la programmation, et disponible gratuitement.

AlphaMaze — AlphaMaze est un modèle de langage décodeur axé sur les tâches de raisonnement visuel, conçu pour pallier les lacunes des modèles linguistiques traditionnels dans ce domaine.

Smithery — Étend les capacités des modèles linguistiques grâce au protocole Model Context Protocol (MCP).

Moonlight-16B-A3B — Moonlight-16B-A3B est un modèle d'expert mixte de 16 milliards de paramètres, entraîné avec l'optimiseur Muon, conçu pour une génération de langage efficace.

DeepHermes-3-Llama-3-8B-Preview — DeepHermes 3 est un grand modèle linguistique prenant en charge les modes d'inférence et de réponse classiques.

Lora — Lora est un modèle linguistique local optimisé pour les appareils mobiles, compatible avec iOS et Android.

PaliGemma 2 mix — PaliGemma 2 mix est un modèle linguistique visuel multifonctionnel, adapté à diverses tâches et domaines.

Mistral Saba — Mistral Saba est un modèle linguistique régional personnalisé pour le Moyen-Orient et l'Asie du Sud.

Application OLMoE — Ai2 OLMoE est une application de modèle linguistique open source fonctionnant sur les appareils iOS.

Podscript — Outil permettant de générer des transcriptions de podcasts et autres fichiers audio, prenant en charge plusieurs modèles linguistiques et API de reconnaissance vocale.

MNN — MNN est un moteur d'inférence léger et haute performance open source d'Alibaba, prenant en charge plusieurs formats de modèles courants.

Xwen-Chat — Xwen-Chat est un ensemble de modèles linguistiques de grande taille spécialisé dans les dialogues en chinois, offrant plusieurs versions de modèles et des services de génération de langage.

LLM Codenames — Un outil de création de noms innovants basé sur LLM, aidant les utilisateurs à générer rapidement des noms uniques.

Application de Chat Exa & Deepseek — Une application de chat open source utilisant l'API Exa pour la recherche sur le web et Deepseek R1 pour le raisonnement.

DeepSeek-R1-Distill-Llama-8B — DeepSeek-R1-Distill-Llama-8B est un modèle linguistique open source haute performance, adapté à la génération de texte et aux tâches d'inférence.

QwQ-32B-Preview-gptqmodel-4bit-vortex-v3 — Il s'agit d'une version quantifiée sur 4 bits du modèle Qwen2.5-32B, conçue pour une inférence efficace et un déploiement nécessitant peu de ressources.

ReaderLM v2 — ReaderLM v2 est un petit modèle linguistique de pointe conçu pour la conversion HTML vers Markdown et JSON.

MiniMax-Text-01 — MiniMax-Text-01 est un puissant modèle linguistique doté de 456 milliards de paramètres au total, capable de traiter un contexte allant jusqu'à 4 millions de jetons.

MiniMax-01 — Modèle linguistique puissant disposant de 456 milliards de paramètres au total, capable de traiter un contexte jusqu'à 4 millions de jetons.

fullmoon — Discutez avec un grand modèle linguistique privé et local disposant de dix milliards de paramètres, directement depuis votre poche.

MiniCPM-o-2_6 — MiniCPM-o 2.6 est un puissant grand modèle linguistique multimodale adapté à la diffusion en direct visuelle, vocale et multimodale.

MiniCPM-o — MiniCPM-o 2.6 : un MLLM (Modèle Linguistique Multimodal) de niveau GPT-4o, capable de réaliser des diffusions en direct visuelles, vocales et multimodales sur un téléphone portable.

Llama-3-Patronus-Lynx-70B-Instruct — Modèle d'évaluation open source pour la détection des hallucinations, basé sur l'architecture Llama-3, avec 70 milliards de paramètres.