vLLM

Plateforme d'inférence et de service LLM rapide et facile à utiliser

Sélection InternationaleProgrammationLLMInférence
vLLM est une bibliothèque rapide, facile à utiliser et efficace pour l'inférence et la fourniture de services de grands modèles linguistiques (LLM). Elle offre des services d'inférence hautes performances grâce à des techniques de débit de service de pointe, une gestion mémoire efficace, le traitement par lots continu des requêtes, l'exécution rapide du modèle via les graphes CUDA/HIP, des techniques de quantification et des noyaux CUDA optimisés. vLLM prend en charge l'intégration transparente avec les modèles Hugging Face populaires, prend en charge plusieurs algorithmes de décodage, notamment l'échantillonnage parallèle et la recherche par faisceaux, prend en charge le parallélisme tensoriel pour l'inférence distribuée, prend en charge la sortie en continu et est compatible avec les serveurs d'API OpenAI. De plus, vLLM prend en charge les GPU NVIDIA et AMD, ainsi qu'une mise en cache de préfixe expérimentale et la prise en charge multi-LoRA.
Ouvrir le site Web

vLLM Dernière situation du trafic

Nombre total de visites mensuelles

584276

Taux de rebond

48.64%

Nombre moyen de pages par visite

3.1

Durée moyenne de la visite

00:04:31

vLLM Tendance des visites

vLLM Distribution géographique des visites

vLLM Sources de trafic

vLLM Alternatives