vLLM

तेज़ और आसान LLM अनुमान और सेवा प्लेटफ़ॉर्म

अंतर्राष्ट्रीय चयनप्रोग्रामिंगLLMअनुमान
vLLM बड़े भाषा मॉडल (LLM) के अनुमान और सेवाएँ प्रदान करने के लिए एक तेज, आसान और कुशल लाइब्रेरी है। यह नवीनतम सेवा थ्रूपुट तकनीक, कुशल मेमोरी प्रबंधन, निरंतर बैच प्रसंस्करण अनुरोध, CUDA/HIP ग्राफ़ द्वारा तेज मॉडल निष्पादन, क्वांटाइज़ेशन तकनीक, अनुकूलित CUDA कर्नेल आदि का उपयोग करके उच्च-प्रदर्शन अनुमान सेवाएँ प्रदान करता है। vLLM लोकप्रिय HuggingFace मॉडल के साथ निर्बाध एकीकरण का समर्थन करता है, जिसमें समानांतर सैंपलिंग, बीम सर्च आदि जैसी कई डिकोडिंग एल्गोरिदम शामिल हैं, टेंसर समानांतरता का समर्थन करता है, जो वितरित अनुमान के लिए उपयुक्त है, स्ट्रीमिंग आउटपुट का समर्थन करता है और OpenAI API सर्वर के साथ संगत है। इसके अतिरिक्त, vLLM NVIDIA और AMD GPU, और प्रायोगिक उपसर्ग कैश और बहु-लोरा समर्थन का भी समर्थन करता है।
वेबसाइट खोलें

vLLM नवीनतम ट्रैफ़िक स्थिति

मासिक कुल विज़िट

584276

बाउंस दर

48.64%

प्रति विज़िट औसत पृष्ठ

3.1

औसत विज़िट अवधि

00:04:31

vLLM विज़िट प्रवृत्ति

vLLM विज़िट भौगोलिक वितरण

vLLM ट्रैफ़िक स्रोत

vLLM विकल्प