PowerInfer

Hochgeschwindigkeits-Inferenz-Engine für große Sprachmodelle zur lokalen Bereitstellung

Normales ProduktProduktivitätSprachmodellInferenz-Engine

PowerInfer ist eine Engine, die auf PCs mit Consumer-GPUs die Hochgeschwindigkeits-Inferenz großer Sprachmodelle ermöglicht. Durch die Ausnutzung der hohen Lokalität bei der LLM-Inferenz und das Vorladen von aktivierten Neuronen auf die GPU reduziert sie den GPU-Speicherbedarf und den Datentransfer zwischen CPU und GPU deutlich. PowerInfer integriert außerdem einen adaptiven Prädiktor und neuronal-sensitive Sparse-Operatoren, um die Effizienz der neuronalen Aktivierung und der Berechnungssparsität zu optimieren. Auf einer einzelnen NVIDIA RTX 4090 GPU erreicht es eine Inferenzgeschwindigkeit von durchschnittlich 13,20 Token pro Sekunde, nur 18 % langsamer als die Spitzenserver-GPU A100. Dabei bleibt die Modellgenauigkeit erhalten.

Best AI Websites & Tools

PowerInfer

PowerInfer Neueste Verkehrssituation

PowerInfer Besuchstrend

PowerInfer Geografische Verteilung der Besuche

PowerInfer Traffic-Quellen

PowerInfer Alternativen

PowerInfer — Hochgeschwindigkeits-Inferenz-Engine für große Sprachmodelle zur lokalen Bereitstellung

Inception Labs — Inception Labs bringt eine neue Generation diffusionsbasierter Sprachmodelle auf den Markt und bietet extrem schnelle, effiziente und hochwertige Sprachgenerierung.

OpenManus — OpenManus ist ein Open-Source-Projekt für intelligente Agenten, das ohne Einladungscode verwendet werden kann.

Instella — Instella ist ein von AMD entwickeltes, leistungsstarkes Open-Source-Sprachmodell, das speziell für die Beschleunigung der Entwicklung von Open-Source-Sprachmodellen entwickelt wurde.

GPT-4.5 — Das neueste Sprachmodell GPT-4.5 von OpenAI konzentriert sich auf die Verbesserung der Fähigkeiten des unüberwachten Lernens und bietet ein natürlicheres interaktives Erlebnis.

Gemini 2.0 Flash-Lite — Gemini 2.0 Flash-Lite ist ein effizientes Sprachmodell, das speziell für die Verarbeitung langer Texte und verschiedene Anwendungsfälle optimiert wurde.

Phi-4-mini-instruct — Phi-4-mini-instruct ist ein leichtgewichtiges Open-Source-Sprachmodell, das sich auf hochwertige, inferenzintensive Daten konzentriert.

DeepSeek Japanisch — DeepSeek ist ein fortschrittliches KI-Sprachmodell, das sich auf logisches Denken, Mathematik und Programmieraufgaben spezialisiert hat und kostenlos nutzbar ist.

AlphaMaze — AlphaMaze ist ein Decoder-Sprachmodell, das sich auf visuelle Inferenzaufgaben konzentriert und die Schwächen traditioneller Sprachmodelle bei visuellen Aufgaben beheben soll.

Smithery — Erweitert die Fähigkeiten von Sprachmodellen über den Model Context Protocol Server.

Moonlight-16B-A3B — Moonlight-16B-A3B ist ein 16B-Parameter-Mix-Expertenmodell, das mit dem Muon-Optimierer trainiert wurde und für die effiziente Spracherzeugung entwickelt wurde.

DeepHermes-3-Llama-3-8B-Preview — DeepHermes 3 ist ein großes Sprachmodell, das sowohl Inferenz- als auch konventionelle Antwortmodi unterstützt.

Lora — Lora ist ein für mobile Geräte optimiertes lokales Sprachmodell, das iOS und Android unterstützt.

PaliGemma 2 Mix — PaliGemma 2 Mix ist ein vielseitiges visuell-sprachliches Modell für diverse Aufgaben und Bereiche.

Mistral Saba — Mistral Saba ist ein regionsspezifisches Sprachmodell, das speziell für den Nahen Osten und Südasien entwickelt wurde.

OLMoE App — Ai2 OLMoE ist eine Open-Source-Anwendung für Sprachmodelle, die auf iOS-Geräten läuft.

Podscript — Ein Tool zur Erstellung von Transkripten für Podcasts und andere Audiodateien, das verschiedene Sprachmodelle und Spracherkennungs-APIs unterstützt.

MNN — MNN ist eine von Alibaba Open Source bereitgestellte, leichtgewichtige und performante Inferenz-Engine, die verschiedene gängige Modellformate unterstützt.

Xwen-Chat — Xwen-Chat ist eine Sammlung von großen Sprachmodellen, die sich auf chinesische Konversationen konzentrieren und verschiedene Modellversionen sowie Sprachgenerierungsdienste anbieten.

LLM Codename — Ein kreatives Benennungstool auf Basis von LLM, das Nutzern hilft, schnell einzigartige Namen zu generieren.

Exa & Deepseek Chat-App — Eine Open-Source Chat-Anwendung, die die Exa-API für die Websuche und Deepseek R1 für die Inferenz nutzt.

DeepSeek-R1-Distill-Llama-8B — DeepSeek-R1-Distill-Llama-8B ist ein leistungsstarkes Open-Source-Sprachmodell für Textgenerierung und Inferenzaufgaben.

QwQ-32B-Preview-gptqmodel-4bit-vortex-v3 — Dies ist eine 4-Bit-quantisierte Version des Qwen2.5-32B-Modells, die für effizientes Inferencing und den Einsatz mit geringen Ressourcen entwickelt wurde.

ReaderLM v2 — ReaderLM v2 ist ein fortschrittliches, kleines Sprachmodell für die Konvertierung von HTML in Markdown und JSON.

MiniMax-Text-01 — MiniMax-Text-01 ist ein leistungsstarkes Sprachmodell mit 456 Milliarden Parametern, das Kontexte mit bis zu 4 Millionen Token verarbeiten kann.

MiniMax-01 — Leistungsstarkes Sprachmodell mit 4560 Milliarden Parametern, das Kontexte mit bis zu 4 Millionen Token verarbeiten kann.

Vollmond — Mit einer Milliarde Parametern in Ihrer Tasche: Chatten Sie mit einem privaten, lokalen großen Sprachmodell.

MiniCPM-o-2_6 — MiniCPM-o 2.6 ist ein leistungsstarkes, multimodales großes Sprachmodell, das sich für visuelle, sprachbasierte und multimodale Live-Übertragungen eignet.

MiniCPM-o — MiniCPM-o 2.6: Ein MLLM (Multimodales Large Language Model) auf GPT-4o-Niveau, das visuelle, sprachliche und multimodale Livestreaming auf Smartphones ermöglicht.

Llama-3-Patronus-Lynx-70B-Instruct — Ein quelloffenes Bewertungsmodell zur Erkennung von Halluzinationen, basierend auf der Llama-3-Architektur mit 70 Milliarden Parametern.