Mooncake
Plateforme de services LLM de pointe
Produit OrdinaireAutreServices LLMArchitecture découplée
Mooncake est la plateforme de services de Kimi, fournie par Moonshot AI. Il s'agit d'une plateforme de services de pointe pour les grands modèles de langage (LLM). Elle adopte une architecture découplée centrée sur KVCache, en séparant les grappes de préremplissage et de décodage, et en utilisant les ressources CPU, DRAM et SSD sous-utilisées des grappes GPU pour implémenter le cache découplé KVCache. Au cœur de Mooncake se trouve son ordonnanceur central KVCache, qui équilibre la maximisation du débit efficace global tout en garantissant le respect des objectifs de niveau de service (SLO) liés à la latence. Contrairement aux recherches traditionnelles, Mooncake est confronté à des scénarios de surcharge extrême, ce qui a conduit au développement d'une stratégie de rejet précoce basée sur la prédiction. Les expériences montrent que Mooncake excelle dans les scénarios à long contexte, avec une augmentation du débit pouvant atteindre 525 % dans certains scénarios simulés par rapport aux méthodes de référence, tout en respectant les SLO. En charge de travail réelle, l'architecture innovante de Mooncake permet à Kimi de traiter plus de 75 % des requêtes.
Mooncake Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34