Mooncake

Plateforme de services LLM de pointe

Produit OrdinaireAutreServices LLMArchitecture découplée
Mooncake est la plateforme de services de Kimi, fournie par Moonshot AI. Il s'agit d'une plateforme de services de pointe pour les grands modèles de langage (LLM). Elle adopte une architecture découplée centrée sur KVCache, en séparant les grappes de préremplissage et de décodage, et en utilisant les ressources CPU, DRAM et SSD sous-utilisées des grappes GPU pour implémenter le cache découplé KVCache. Au cœur de Mooncake se trouve son ordonnanceur central KVCache, qui équilibre la maximisation du débit efficace global tout en garantissant le respect des objectifs de niveau de service (SLO) liés à la latence. Contrairement aux recherches traditionnelles, Mooncake est confronté à des scénarios de surcharge extrême, ce qui a conduit au développement d'une stratégie de rejet précoce basée sur la prédiction. Les expériences montrent que Mooncake excelle dans les scénarios à long contexte, avec une augmentation du débit pouvant atteindre 525 % dans certains scénarios simulés par rapport aux méthodes de référence, tout en respectant les SLO. En charge de travail réelle, l'architecture innovante de Mooncake permet à Kimi de traiter plus de 75 % des requêtes.
Ouvrir le site Web

Mooncake Dernière situation du trafic

Nombre total de visites mensuelles

474564576

Taux de rebond

36.20%

Nombre moyen de pages par visite

6.1

Durée moyenne de la visite

00:06:34

Mooncake Tendance des visites

Mooncake Distribution géographique des visites

Mooncake Sources de trafic

Mooncake Alternatives