月之暗面科技有限公司与清华大学MADSys实验室联合发布了一项名为Mooncake的开源项目,旨在共建以KVCache为中心的大模型推理架构。2024年6月,双方曾联合发布Kimi底层的Mooncake推理系统设计方案,该方案基于PD分离和以存换算架构,显著提升了推理吞吐量,受到业界广泛关注。

Mooncake项目从论文延伸而来,以超大规模KVCache缓存池为中心,通过以存换算的创新理念减少算力开销,提升推理吞吐量。项目采用分阶段开源方式,逐步开源高性能KVCache多级缓存Mooncake Store的实现,并针对各类推理引擎和底层存储/传输资源进行兼容。目前,传输引擎Transfer Engine部分已在GitHub全球开源。

微信截图_20241128110432.png

月之暗面Kimi工程副总裁许欣然表示,通过与清华大学MADSys实验室的紧密合作,共同打造了分离式大模型推理架构Mooncake,实现了推理资源的极致优化。Mooncake不仅提升了Kimi的用户体验和降低了成本,还为处理长文本和高并发需求提供了有效的解决方案。公司相信,通过与产学研机构的开源合作,可以推动整个行业向更高效的推理平台方向发展,并邀请更多企业和研究机构加入Mooncake项目共建,共同探索更高效和先进的模型推理系统架构创新,让基于大模型技术的AI助手等产品惠及更广泛人群。

项目地址:https://github.com/kvcache-ai/Mooncake