vLLM

Plataforma de inferencia y servicio LLM rápida y fácil de usar

Selección InternacionalProgramaciónLLMInferencia
vLLM es una biblioteca rápida, fácil de usar y eficiente para la inferencia y el servicio de modelos de lenguaje grandes (LLM). Ofrece un servicio de inferencia de alto rendimiento mediante el uso de las últimas técnicas de rendimiento de servicio, administración eficiente de memoria, solicitudes de procesamiento por lotes continuas, ejecución rápida de modelos de gráficos CUDA/HIP, técnicas de cuantificación y núcleos CUDA optimizados. vLLM admite la integración perfecta con los modelos populares de HuggingFace, admite varios algoritmos de decodificación, incluyendo muestreo paralelo y búsqueda de haces, admite el paralelismo de tensores, es adecuado para la inferencia distribuida, admite la salida en flujo y es compatible con el servidor de API de OpenAI. Además, vLLM admite GPU NVIDIA y AMD, así como el almacenamiento en caché de prefijos experimental y soporte multi-LoRA.
Abrir sitio web

vLLM Situación del tráfico más reciente

Total de visitas mensuales

584276

Tasa de rebote

48.64%

Páginas promedio por visita

3.1

Duración promedio de la visita

00:04:31

vLLM Tendencia de visitas

vLLM Distribución geográfica de las visitas

vLLM Fuentes de tráfico

vLLM Alternativas