vLLM

快速易用的LLM推理和服务平台

国外精选编程LLM推理
vLLM是一个为大型语言模型(LLM)推理和提供服务的快速、易用且高效的库。它通过使用最新的服务吞吐量技术、高效的内存管理、连续批处理请求、CUDA/HIP图快速模型执行、量化技术、优化的CUDA内核等,提供了高性能的推理服务。vLLM支持与流行的HuggingFace模型无缝集成,支持多种解码算法,包括并行采样、束搜索等,支持张量并行性,适用于分布式推理,支持流式输出,并兼容OpenAI API服务器。此外,vLLM还支持NVIDIA和AMD GPU,以及实验性的前缀缓存和多lora支持。
打开网站

vLLM 最新流量情况

月总访问量

262455

跳出率

45.74%

平均页面访问数

3.2

平均访问时长

00:04:11

vLLM 访问量趋势

vLLM 访问地理位置分布

vLLM 流量来源

vLLM 替代品