月之暗面科技有限公司と清華大学MADSys研究所は共同で、KVCacheを中核とした大規模モデル推論アーキテクチャの構築を目指したオープンソースプロジェクト「Mooncake」を発表しました。2024年6月には、Kimiの基盤となるMooncake推論システム設計案を共同発表しており、PD分離と計算をメモリに置き換えるアーキテクチャに基づき、推論スループットを大幅に向上させたことで業界から大きな注目を集めました。

Mooncakeプロジェクトは論文から発展したもので、超大規模KVCacheキャッシュプールを中心とし、計算をメモリに置き換える革新的な考え方によって計算コストを削減し、推論スループットを向上させます。段階的なオープンソース化を採用し、高性能KVCache多階層キャッシュMooncake Storeの実装を順次公開するとともに、様々な推論エンジンや基盤となるストレージ/転送リソースとの互換性を確保します。現在、転送エンジンTransfer Engineの一部はGitHubでグローバルに公開されています。

微信截图_20241128110432.png

月之暗面Kimiエンジニアリング担当副社長の許欣然氏は、清華大学MADSys研究所との緊密な協力により、分離型大規模モデル推論アーキテクチャMooncakeを共同開発し、推論リソースの最適化を実現したと述べています。MooncakeはKimiのユーザーエクスペリエンスの向上とコスト削減を実現するだけでなく、長文処理や高並列処理のニーズにも効果的なソリューションを提供します。同社は、産学連携によるオープンソース化を通じて、業界全体のより効率的な推論プラットフォームへの発展を促進できると確信しており、より多くの企業や研究機関にMooncakeプロジェクトへの参加を呼びかけ、より効率的で高度なモデル推論システムアーキテクチャの革新を共同で探求し、大規模モデル技術に基づくAIアシスタントなどの製品をより多くの人々に提供することを目指しています。

プロジェクトアドレス:https://github.com/kvcache-ai/Mooncake