vLLM
Schnelle und benutzerfreundliche Plattform für LLM-Inferenz und -Services
Internationale AuswahlProgrammierungLLMInferenz
vLLM ist eine schnelle, benutzerfreundliche und effiziente Bibliothek zum Schlussfolgern und Bereitstellen großer Sprachmodelle (LLM). Durch den Einsatz modernster Technologien für den Service-Durchsatz, effizientes Speichermanagement, kontinuierliche Batch-Anfragen, schnelle Modellsausführung mit CUDA/HIP-Graphen, Quantisierungstechniken und optimierte CUDA-Kernels bietet sie hochperformante Inferenzdienste. vLLM unterstützt die nahtlose Integration mit beliebten HuggingFace-Modellen, verschiedene Dekodierungsalgorithmen wie paralleles Sampling und Beam Search, Tensor-Parallelität für verteiltes Inferencing, Streaming-Ausgabe und ist kompatibel mit OpenAI API-Servern. Darüber hinaus unterstützt vLLM NVIDIA- und AMD-GPUs sowie experimentelle Präfix-Caching und Multi-LoRA-Unterstützung.
vLLM Neueste Verkehrssituation
Monatliche Gesamtbesuche
584276
Absprungrate
48.64%
Durchschnittliche Seiten pro Besuch
3.1
Durchschnittliche Besuchsdauer
00:04:31