2024-11-28 11:03:24.AIbase.13.6k
Kimi联手清华开源大模型推理架构Mooncake 提升AI推理效率
在人工智能迅速发展的时代,大型模型的智能化水平不断提升,但随之而来的推理系统效率挑战也越来越明显。如何应对高推理负载、降低推理成本、缩短响应时间,已成为业界共同面对的重要问题。Kimi 公司联合清华大学的 MADSys 实验室,推出了基于 KVCache 的 Mooncake 推理系统设计方案,该方案于2024年6月正式发布。Mooncake 推理系统通过创新的 PD 分离架构和以存换算为中心的理念,显著提升了推理的吞吐能力,吸引了广泛的行业关注。为了进一步推动这一技术框架的应用与普及,Kimi 与清华