La empresa de tecnología Lunar Dark Side y el laboratorio MADSys de la Universidad Tsinghua han lanzado conjuntamente un proyecto de código abierto llamado Mooncake, cuyo objetivo es construir conjuntamente una arquitectura de inferencia de modelos grandes centrada en KVCache. En junio de 2024, ambas partes lanzaron conjuntamente el esquema de diseño del sistema de inferencia Mooncake para Kimi, que se basa en la separación de PD y la arquitectura de cálculo mediante almacenamiento, mejorando significativamente el rendimiento de la inferencia y atrayendo una amplia atención de la industria.

El proyecto Mooncake se deriva de un artículo académico y se centra en un pool de caché KVCache a gran escala, utilizando el concepto innovador de cálculo mediante almacenamiento para reducir los costos de cómputo y mejorar el rendimiento de la inferencia. El proyecto adopta un método de código abierto por etapas, lanzando gradualmente la implementación de Mooncake Store, un caché multinivel KVCache de alto rendimiento, y es compatible con varios motores de inferencia y recursos de almacenamiento/transmisión subyacentes. Actualmente, el motor de transmisión Transfer Engine ya se ha lanzado como código abierto globalmente en GitHub.

微信截图_20241128110432.png

Xu Xinran, vicepresidente de ingeniería de Kimi en Lunar Dark Side, afirmó que, a través de la estrecha colaboración con el laboratorio MADSys de la Universidad Tsinghua, se ha creado conjuntamente la arquitectura de inferencia de modelos grandes Mooncake, que ha logrado la optimización extrema de los recursos de inferencia. Mooncake no solo mejora la experiencia del usuario de Kimi y reduce los costos, sino que también proporciona soluciones efectivas para el procesamiento de textos largos y las altas demandas de concurrencia. La empresa cree que, a través de la cooperación de código abierto entre la industria, la academia y la investigación, se puede impulsar a toda la industria hacia plataformas de inferencia más eficientes, e invita a más empresas e instituciones de investigación a unirse al proyecto Mooncake para construir conjuntamente y explorar innovaciones en arquitecturas de sistemas de inferencia de modelos más eficientes y avanzados, permitiendo que productos como los asistentes de IA basados en modelos grandes beneficien a un público más amplio.

Dirección del proyecto: https://github.com/kvcache-ai/Mooncake