vLLM
Plataforma de inferencia y servicio LLM rápida y fácil de usar
Selección InternacionalProgramaciónLLMInferencia
vLLM es una biblioteca rápida, fácil de usar y eficiente para la inferencia y el servicio de modelos de lenguaje grandes (LLM). Ofrece un servicio de inferencia de alto rendimiento mediante el uso de las últimas técnicas de rendimiento de servicio, administración eficiente de memoria, solicitudes de procesamiento por lotes continuas, ejecución rápida de modelos de gráficos CUDA/HIP, técnicas de cuantificación y núcleos CUDA optimizados. vLLM admite la integración perfecta con los modelos populares de HuggingFace, admite varios algoritmos de decodificación, incluyendo muestreo paralelo y búsqueda de haces, admite el paralelismo de tensores, es adecuado para la inferencia distribuida, admite la salida en flujo y es compatible con el servidor de API de OpenAI. Además, vLLM admite GPU NVIDIA y AMD, así como el almacenamiento en caché de prefijos experimental y soporte multi-LoRA.
vLLM Situación del tráfico más reciente
Total de visitas mensuales
584276
Tasa de rebote
48.64%
Páginas promedio por visita
3.1
Duración promedio de la visita
00:04:31