最近,魔搭社区与 vLLM 和 FastChat 展开合作,联合为中国开发者提供更快更高效的 LLM 推理和部署服务。开发者可以使用 vLLM 作为 FastChat 中的推理引擎,提供高吞吐量的模型推理。FastChat 是一个开放平台,用于训练、服务和评估基于 LLM 的 ChatBot。vLLM 是一个由加州伯克利分校、斯坦福大学和加州大学圣迭戈分校的研究人员开发的 LLM 服务系统。通过 FastChat 和 vLLM,开发者可以快速加载魔搭的模型进行推理。