Mondkuchen
Führende Plattform für LLM-Dienste
Normales ProduktAndereLLM-DiensteEntkoppelte Architektur
Mondkuchen ist Kimis Serviceplattform, bereitgestellt von Moonshot AI, und eine führende Plattform für große Sprachmodelle (LLM). Sie nutzt eine entkoppelte Architektur mit KVCache im Zentrum, die durch die Trennung von Prefill- und Decoding-Clustern und die Nutzung bisher ungenutzter CPU-, DRAM- und SSD-Ressourcen in GPU-Clustern einen entkoppelten KVCache-Speicher realisiert. Das Herzstück von Mondkuchen ist der zentrale KVCache-Scheduler, der die Maximierung des Gesamtdurchsatzes bei gleichzeitiger Einhaltung der Anforderungen an die latenzbezogenen Service Level Objectives (SLOs) ausbalanciert. Anders als herkömmliche Forschungsansätze konzentriert sich Mondkuchen auf stark überlastete Szenarien und hat dafür eine prädiktionsbasierte Strategie zur frühzeitigen Ablehnung entwickelt. Experimente zeigen, dass Mondkuchen in Szenarien mit langen Kontexten hervorragende Leistungen erbringt und in einigen simulierten Szenarien den Durchsatz im Vergleich zu Baseline-Methoden um 525 % steigern kann, während gleichzeitig die SLOs eingehalten werden. In realen Arbeitslasten ermöglicht die innovative Architektur von Mondkuchen Kimi, über 75 % der Anfragen zu verarbeiten.
Mondkuchen Neueste Verkehrssituation
Monatliche Gesamtbesuche
474564576
Absprungrate
36.20%
Durchschnittliche Seiten pro Besuch
6.1
Durchschnittliche Besuchsdauer
00:06:34