À l'ère du développement rapide de l'intelligence artificielle, le niveau d'intelligence des grands modèles ne cesse de s'améliorer, mais les défis liés à l'efficacité des systèmes d'inférence deviennent de plus en plus évidents. La manière de gérer les charges d'inférence élevées, de réduire les coûts d'inférence et de raccourcir les temps de réponse est devenue un problème important auquel l'industrie est confrontée.

image.png

Kimi, en collaboration avec le laboratoire MADSys de l'Université Tsinghua, a lancé Mooncake, une solution de conception de système d'inférence basée sur KVCache. Cette solution a été officiellement lancée en juin 2024.

Le système d'inférence Mooncake, grâce à son architecture innovante de séparation PD et à son concept axé sur le calcul par stockage, améliore considérablement le débit de l'inférence, attirant ainsi une attention considérable de l'industrie. Afin de promouvoir davantage l'application et la diffusion de ce cadre technologique, Kimi et le laboratoire MADSys de l'Université Tsinghua, en collaboration avec plusieurs entreprises telles que 9#AISoft, Alibaba Cloud et Huawei Storage, ont lancé le projet open source Mooncake. Le 28 novembre, l'architecture technique de Mooncake a été officiellement mise en ligne sur la plateforme GitHub.

Le projet open source Mooncake s'articule autour d'un pool de cache KVCache à très grande échelle et vise à mettre progressivement en open source, de manière progressive, le Mooncake Store, un cache multi-niveaux KVCache haute performance. Parallèlement, ce projet sera compatible avec plusieurs moteurs d'inférence et des ressources de stockage et de transmission sous-jacentes.

Actuellement, une partie du moteur de transfert (Transfer Engine) est déjà en open source mondial sur GitHub. L'objectif ultime du projet Mooncake est de construire une nouvelle interface standard de stockage sémantique en mémoire haute performance pour l'ère des grands modèles, et de fournir des solutions de mise en œuvre de référence.

Xu Xinran, vice-président de l'ingénierie chez Kimi, a déclaré : « Grâce à une étroite collaboration avec le laboratoire MADSys de l'Université Tsinghua, nous avons conjointement créé Mooncake, une architecture d'inférence de grands modèles séparée, qui optimise au maximum les ressources d'inférence.

Mooncake améliore non seulement l'expérience utilisateur, mais réduit également les coûts et offre une solution efficace pour traiter les longs textes et les demandes à forte concurrence. » Il espère que davantage d'entreprises et d'organismes de recherche rejoindront le projet Mooncake afin d'explorer ensemble des architectures de systèmes d'inférence de modèles plus efficaces, permettant ainsi aux produits basés sur la technologie des grands modèles, tels que les assistants IA, de bénéficier à un public plus large.

Accès au projet : https://github.com/kvcache-ai/Mooncake

Points clés :

🌟 Kimi et l'Université Tsinghua lancent le système d'inférence Mooncake pour améliorer l'efficacité de l'inférence IA.

🔧 Le projet Mooncake est désormais open source sur GitHub et vise à construire une interface standard de stockage sémantique en mémoire haute performance.

🤝 Nous espérons que davantage d'entreprises et d'organismes de recherche participeront pour faire progresser ensemble la technologie de l'IA.