Die Firma „月之暗面科技有限公司“ (Mondfinsternis Technologie Co., Ltd.) und das MADSys-Labor der Tsinghua-Universität haben gemeinsam ein Open-Source-Projekt namens Mooncake veröffentlicht, das darauf abzielt, eine auf KVCache basierende Inferenzarchitektur für große Modelle gemeinsam zu entwickeln. Im Juni 2024 veröffentlichten beide Seiten gemeinsam den Entwurf des Mooncake-Inferenzsystems für die Kimi-Grundlage. Dieses basiert auf PD-Trennung und einer „Speicher-statt-Rechen“-Architektur und verbessert den Inferenz-Durchsatz deutlich, was in der Branche große Aufmerksamkeit erregte.
Das Mooncake-Projekt ist aus einer wissenschaftlichen Arbeit entstanden und konzentriert sich auf einen extrem großen KVCache-Pufferpool. Durch die innovative „Speicher-statt-Rechen“-Idee werden Rechenaufwände reduziert und der Inferenz-Durchsatz erhöht. Das Projekt wird schrittweise als Open Source veröffentlicht. Die Implementierung des Hochleistungs-KVCache-Mehrstufen-Caches Mooncake Store wird nach und nach offengelegt, und es wird die Kompatibilität mit verschiedenen Inferenz-Engines und zugrundeliegenden Speicher-/Übertragungsressourcen gewährleistet. Derzeit ist die Transfer Engine bereits weltweit auf GitHub als Open Source verfügbar.
Xu Xinran, Vizepräsidentin für das Kimi-Projekt bei 月之暗面 (Mondfinsternis), erklärt, dass durch die enge Zusammenarbeit mit dem MADSys-Labor der Tsinghua-Universität die separierte Inferenzarchitektur Mooncake für große Modelle entwickelt wurde, die eine optimale Nutzung der Inferenzressourcen ermöglicht. Mooncake verbessert nicht nur die Benutzererfahrung von Kimi und senkt die Kosten, sondern bietet auch effektive Lösungen für die Verarbeitung langer Texte und hohe gleichzeitige Anforderungen. Das Unternehmen ist überzeugt, dass die Open-Source-Zusammenarbeit mit akademischen und industriellen Forschungseinrichtungen die Entwicklung der gesamten Branche in Richtung effizienterer Inferenzplattformen vorantreiben wird. Es lädt weitere Unternehmen und Forschungseinrichtungen ein, sich am Mooncake-Projekt zu beteiligen und gemeinsam effizientere und fortschrittlichere Architekturen für Modellaufschluss-Systeme zu erforschen, damit KI-Assistenten und andere Produkte auf Basis großer Modelle einem breiteren Publikum zugutekommen.
Projekt-Adresse: https://github.com/kvcache-ai/Mooncake