vLLM

Plateforme d'inférence et de service LLM rapide et facile à utiliser

Sélection InternationaleProgrammationLLMInférence

vLLM est une bibliothèque rapide, facile à utiliser et efficace pour l'inférence et la fourniture de services de grands modèles linguistiques (LLM). Elle offre des services d'inférence hautes performances grâce à des techniques de débit de service de pointe, une gestion mémoire efficace, le traitement par lots continu des requêtes, l'exécution rapide du modèle via les graphes CUDA/HIP, des techniques de quantification et des noyaux CUDA optimisés. vLLM prend en charge l'intégration transparente avec les modèles Hugging Face populaires, prend en charge plusieurs algorithmes de décodage, notamment l'échantillonnage parallèle et la recherche par faisceaux, prend en charge le parallélisme tensoriel pour l'inférence distribuée, prend en charge la sortie en continu et est compatible avec les serveurs d'API OpenAI. De plus, vLLM prend en charge les GPU NVIDIA et AMD, ainsi qu'une mise en cache de préfixe expérimentale et la prise en charge multi-LoRA.

Best AI Websites & Tools

vLLM

vLLM Dernière situation du trafic

vLLM Tendance des visites

vLLM Distribution géographique des visites

vLLM Sources de trafic

vLLM Alternatives

vLLM — Plateforme d'inférence et de service LLM rapide et facile à utiliser

FlashInfer — FlashInfer est une bibliothèque de noyaux GPU hautes performances pour les services de grands modèles linguistiques.

Llama-3.1-Nemotron-70B-Instruct — Grand modèle linguistique personnalisé par NVIDIA, améliorant l'utilité des réponses aux requêtes.

LLM Efficiente — Solution d'inférence LLM efficace sur GPU Intel

l1m — Une API proxy utilisée pour extraire des données structurées à partir de texte et d'images, implémentée à l'aide de LLM.

Générateur Firecrawl LLMs.txt — Outil de génération de fichiers texte intégrés à partir de sites Web pour l'entraînement et l'inférence des LLM

Hugo Translator — Outil de traduction d'articles basé sur les LLM, traduisant et créant automatiquement des fichiers Markdown multilingues.

QwQ-32B — QwQ-32B est un puissant modèle d'inférence, conçu pour la résolution de problèmes complexes et la génération de texte, avec des performances exceptionnelles.

Aviator Agents — Framework d'agents basé sur LLM, utilisé pour effectuer des migrations de code à grande échelle dans les dépôts de code.

llm-commit — Un plugin pour générer des messages de commit Git avec un LLM

Crawl4LLM — Outil de crawling Web performant pour le pré-entraînement des LLM, axé sur l'extraction efficace de données Web de haute qualité.

hallucination-leaderboard — Un classement comparant les performances de grands modèles de langage (LLM) en matière d'hallucinations lors de la synthèse de courts documents.

VisionAgent — VisionAgent est une bibliothèque permettant de générer du code pour résoudre des tâches de vision par ordinateur, et compatible avec plusieurs fournisseurs de LLM.

OmniParser V2 — OmniParser V2 est une technologie permettant de transformer n'importe quel LLM en agent utilisable par ordinateur.

Supametas.AI — Plateforme de traitement de données non structurées, aidant les entreprises à construire rapidement des ensembles de données sectorielles et à les intégrer à une base de connaissances LLM RAG.

stocks-insights-ai-agent — Application full-stack basée sur LLM et LangChain, conçue pour la recherche de données et d'actualités boursières.

OpenDeepResearcher — Outil de recherche approfondie basé sur l'IA, capable de rechercher des informations de manière continue jusqu'à ce que les besoins de l'utilisateur soient satisfaits.

Please — Please est une entreprise dédiée à la fourniture de services d'intelligence artificielle aux consommateurs.

Confucius-o1-14B — Modèle d'inférence léger développé par NetEase Youdao, déployable sur un seul GPU, offrant des capacités d'inférence similaires à o1.

DeepSeek-R1-Distill-Llama-8B — DeepSeek-R1-Distill-Llama-8B est un modèle linguistique open source haute performance, adapté à la génération de texte et aux tâches d'inférence.

DeepSeek-R1-Distill-Qwen-14B — DeepSeek-R1-Distill-Qwen-14B est un modèle de génération de texte hautes performances, adapté à diverses tâches d'inférence et de génération.

QwQ-32B-Preview-gptqmodel-4bit-vortex-v3 — Il s'agit d'une version quantifiée sur 4 bits du modèle Qwen2.5-32B, conçue pour une inférence efficace et un déploiement nécessitant peu de ressources.

InternLM3 — InternLM3 est un ensemble de modèles axés sur la génération de texte, proposant plusieurs versions optimisées pour répondre à différents besoins.

DocETL — Un système de traitement de données piloté par un grand modèle linguistique (LLM).

DocWrangler — Un environnement de développement interactif open source pour construire et optimiser des pipelines de traitement de données basés sur les LLM.

voyage-3-large — Modèle d'intégration multilingue universel dernier cri, affichant d'excellentes performances dans divers domaines.

llm-datasets — Ensemble de données, d'outils et de concepts de haute qualité pour l'ajustement fin des grands modèles de langage.

llmstxt-generator — Outil permettant de générer des fichiers texte intégrant le contenu de sites web pour l'entraînement et l'inférence de modèles LLM.

CodebaseToPrompt — Outil permettant de convertir des fichiers locaux en invites structurées pour les grands modèles de langage.

Modèle FLUX 1,58 bit — Modèle avancé de génération d'images à partir de texte, quantifié sur 1,58 bit.