Mooncake é a plataforma de serviços Kimi, fornecida pela Moonshot AI, sendo uma plataforma líder de serviços de modelos de linguagem extensos (LLM). Ela adota uma arquitetura desacoplada centrada em KVCache, separando os clusters de pré-preenchimento (prefill) e decodificação (decoding), e aproveitando os recursos de CPU, DRAM e SSD subutilizados nos clusters de GPU para implementar o cache desacoplado do KVCache. O núcleo do Mooncake é o seu despachador central KVCache, que equilibra a maximização da taxa de transferência eficaz geral, ao mesmo tempo que garante o cumprimento dos requisitos de metas de nível de serviço (SLOs) relacionadas à latência. Ao contrário das pesquisas tradicionais, o Mooncake enfrenta cenários de sobrecarga elevada, para os quais foi desenvolvida uma estratégia de rejeição antecipada baseada em previsão. Experimentos demonstram que o Mooncake apresenta excelente desempenho em cenários de contextos longos, com aumento de 525% na taxa de transferência em alguns cenários simulados em comparação com métodos de referência, respeitando os SLOs. Em cargas de trabalho reais, a arquitetura inovadora do Mooncake permite que o Kimi processe mais de 75% das solicitações.