vLLM
Plateforme d'inférence et de service LLM rapide et facile à utiliser
Sélection InternationaleProgrammationLLMInférence
vLLM est une bibliothèque rapide, facile à utiliser et efficace pour l'inférence et la fourniture de services de grands modèles linguistiques (LLM). Elle offre des services d'inférence hautes performances grâce à des techniques de débit de service de pointe, une gestion mémoire efficace, le traitement par lots continu des requêtes, l'exécution rapide du modèle via les graphes CUDA/HIP, des techniques de quantification et des noyaux CUDA optimisés. vLLM prend en charge l'intégration transparente avec les modèles Hugging Face populaires, prend en charge plusieurs algorithmes de décodage, notamment l'échantillonnage parallèle et la recherche par faisceaux, prend en charge le parallélisme tensoriel pour l'inférence distribuée, prend en charge la sortie en continu et est compatible avec les serveurs d'API OpenAI. De plus, vLLM prend en charge les GPU NVIDIA et AMD, ainsi qu'une mise en cache de préfixe expérimentale et la prise en charge multi-LoRA.
vLLM Dernière situation du trafic
Nombre total de visites mensuelles
584276
Taux de rebond
48.64%
Nombre moyen de pages par visite
3.1
Durée moyenne de la visite
00:04:31