vLLM

Schnelle und benutzerfreundliche Plattform für LLM-Inferenz und -Services

Internationale AuswahlProgrammierungLLMInferenz

vLLM ist eine schnelle, benutzerfreundliche und effiziente Bibliothek zum Schlussfolgern und Bereitstellen großer Sprachmodelle (LLM). Durch den Einsatz modernster Technologien für den Service-Durchsatz, effizientes Speichermanagement, kontinuierliche Batch-Anfragen, schnelle Modellsausführung mit CUDA/HIP-Graphen, Quantisierungstechniken und optimierte CUDA-Kernels bietet sie hochperformante Inferenzdienste. vLLM unterstützt die nahtlose Integration mit beliebten HuggingFace-Modellen, verschiedene Dekodierungsalgorithmen wie paralleles Sampling und Beam Search, Tensor-Parallelität für verteiltes Inferencing, Streaming-Ausgabe und ist kompatibel mit OpenAI API-Servern. Darüber hinaus unterstützt vLLM NVIDIA- und AMD-GPUs sowie experimentelle Präfix-Caching und Multi-LoRA-Unterstützung.

Best AI Websites & Tools

vLLM

vLLM Neueste Verkehrssituation

vLLM Besuchstrend

vLLM Geografische Verteilung der Besuche

vLLM Traffic-Quellen

vLLM Alternativen

vLLM — Schnelle und benutzerfreundliche Plattform für LLM-Inferenz und -Services

FlashInfer — FlashInfer ist eine Hochleistungs-GPU-Kernel-Bibliothek für Large Language Model (LLM)-Dienste.

Llama-3.1-Nemotron-70B-Instruct — Ein von NVIDIA entwickeltes großes Sprachmodell zur Verbesserung der Hilfreichkeit von Antworten auf Abfragen.

Effizientes LLM — Effiziente Lösung für LLM-Inferenz auf Intel GPUs

l1m — Eine Proxy-API zur Extraktion strukturierter Daten aus Text und Bildern, basierend auf LLMs.

Firecrawl LLMs.txt Generator — Tool zur Generierung von Webseiten-zusammengeführten Textdateien für das Training und die Inferenz von LLMs

Hugo Translator — Ein auf LLM basierendes Werkzeug zur Artikelübersetzung, das mehrsprachige Markdown-Dateien automatisch übersetzt und erstellt.

QwQ-32B — QwQ-32B ist ein leistungsstarkes Inferenzmodell, das speziell für die Lösung komplexer Probleme und die Textgenerierung entwickelt wurde und sich durch hervorragende Leistung auszeichnet.

Aviator Agents — LLM-basiertes Agenten-Framework zur Durchführung umfangreicher Code-Migrationen in Code-Repositories.

llm-commit — Un plugin pour générer des messages de commit Git avec un LLM

QwQ-Max-Preview — QwQ-Max-Preview ist das neueste Ergebnis der Qwen-Serie und basiert auf Qwen2.5-Max. Es verfügt über leistungsstarke Inferenz- und Multi-Domain-Anwendungsfähigkeiten.

Claude 3.7 Sonnet — Claude 3.7 Sonnet ist das neueste Sprachmodell von Anthropic, das schnelle Reaktionen und tiefes Schlussfolgern ermöglicht.

DeepHermes-3-Llama-3-8B-Preview — DeepHermes 3 ist ein großes Sprachmodell, das sowohl Inferenz- als auch konventionelle Antwortmodi unterstützt.

Crawl4LLM — Ein effizientes Web-Crawling-Tool für das Pre-Training von LLMs, das sich auf das effiziente Sammeln hochwertiger Webdaten konzentriert.

Halluzinations-Leaderboard — Ein Ranking, das verschiedene große Sprachmodelle (LLMs) hinsichtlich ihrer Halluzinationen beim Zusammenfassen kurzer Dokumente vergleicht.

Grok 3 — Das neueste Flaggschiff-AI-Modell Grok 3 von xAI, mit leistungsstarker Inferenz und multimodaler Verarbeitungsfähigkeit.

VisionAgent — VisionAgent ist eine Bibliothek zur Codegenerierung für visuelle Aufgaben und unterstützt verschiedene LLM-Anbieter.

OmniParser V2 — OmniParser V2 ist eine Technologie, die jedes LLM in einen vom Computer nutzbaren Agenten umwandelt.

Supametas.AI — Plattform zur Verarbeitung unstrukturierter Daten, die Unternehmen beim schnellen Aufbau branchenspezifischer Datensätze und deren Integration in LLM RAG-Wissensdatenbanken unterstützt.

Huginn-0125 — Huginn-0125 ist ein latentes, rekursives Deep-Learning-Modell mit 3,5 Milliarden Parametern, das auf Schlussfolgerungen und Codegenerierung spezialisiert ist.

stocks-insights-ai-agent — Eine Vollstack-Anwendung basierend auf LLM und LangChain zur Abfrage von Aktienkursdaten und -nachrichten

DeepClaude — Vereint die Inferenzfähigkeit von DeepSeek R1 mit der Kreativität und Codegenerierungsfähigkeit von Claude in einer einheitlichen API und Chat-Oberfläche.

OpenDeepResearcher — Ein KI-basiertes Deep-Research-Tool, das kontinuierlich nach Informationen sucht, bis die Benutzeranfrage erfüllt ist.

Please — Please ist ein Unternehmen, das sich der Bereitstellung von KI-Diensten für Verbraucher widmet.

Confucius-o1-14B — Von NetEase Youdao entwickeltes leichtgewichtiges Inferenzmodell, das auf einer einzelnen GPU bereitgestellt werden kann und ähnliche Inferenzfähigkeiten wie o1 bietet.

Gemini 2.0 Flash Thinking Experiment — Gemini 2.0 Flash Thinking Experiment ist ein verbessertes Inferenzmodell, das seinen Denkprozess visualisiert, um Leistung und Interpretierbarkeit zu steigern.

DeepSeek-R1-Distill-Llama-8B — DeepSeek-R1-Distill-Llama-8B ist ein leistungsstarkes Open-Source-Sprachmodell für Textgenerierung und Inferenzaufgaben.

DeepSeek-R1-Distill-Qwen-14B — DeepSeek-R1-Distill-Qwen-14B ist ein leistungsstarkes Textgenerierungsmodell, das für verschiedene Inferenz- und Generierungsaufgaben geeignet ist.

Kimi k1.5 — Kimi k1.5 ist ein multimodalen Sprachmodell, das durch verstärkendes Lernen erweitert wurde und sich auf die Verbesserung der Inferenz- und Logikfähigkeiten konzentriert.

QwQ-32B-Preview-gptqmodel-4bit-vortex-v3 — Dies ist eine 4-Bit-quantisierte Version des Qwen2.5-32B-Modells, die für effizientes Inferencing und den Einsatz mit geringen Ressourcen entwickelt wurde.