ムーンケーキは、Moonshot AIが提供するKimiのサービスプラットフォームであり、最先端の大規模言語モデル(LLM)サービスです。KVキャッシュを中核としたデカップリングアーキテクチャを採用し、プリフィル(事前準備)とデコーディング(復号)のクラスタを分離することで、GPUクラスタ内で十分に活用されていないCPU、DRAM、SSDリソースを利用したKVキャッシュのデカップリングキャッシュを実現しています。ムーンケーキの中核はKVキャッシュ中央スケジューラであり、遅延関連のサービスレベル目標(SLO)要件を満たしつつ、全体的な有効スループットの最大化を両立します。従来の研究とは異なり、ムーンケーキは高度な過負荷のシナリオに対処するため、予測に基づいた早期拒否戦略を開発しました。実験により、ムーンケーキは長いコンテキストのシナリオで優れたパフォーマンスを示し、ベースライン手法と比較して、一部のシミュレーションシナリオではスループットが525%向上し、同時にSLOも遵守することが明らかになりました。実際のワークロードでは、ムーンケーキの革新的なアーキテクチャにより、Kimiは75%を超えるリクエストを処理できます。