Kimi e Tsinghua lançam arquitetura de inferência de modelo grande de código aberto Mooncake para melhorar a eficiência de inferência de IA

Na era de rápido desenvolvimento da inteligência artificial, o nível de inteligência dos grandes modelos está constantemente melhorando, mas os desafios de eficiência do sistema de raciocínio também estão se tornando cada vez mais evidentes. Como lidar com altas cargas de raciocínio, reduzir os custos de raciocínio e reduzir o tempo de resposta tornou-se um problema importante enfrentado pela indústria.

A Kimi, em colaboração com o laboratório MADSys da Universidade Tsinghua, lançou o projeto de sistema de raciocínio Mooncake baseado em KVCache, que foi oficialmente lançado em junho de 2024.

O sistema de raciocínio Mooncake, por meio de uma arquitetura inovadora de separação PD e do conceito centrado em "troca de armazenamento por computação", melhora significativamente a capacidade de transferência de raciocínio, atraindo ampla atenção da indústria. Para promover ainda mais a aplicação e a popularização dessa estrutura tecnológica, a Kimi e o laboratório MADSys da Universidade Tsinghua, em conjunto com várias empresas, como 9#AISoft, Alibaba Cloud e Huawei Storage, lançaram o projeto de código aberto Mooncake. Em 28 de novembro, a estrutura tecnológica do Mooncake foi oficialmente lançada na plataforma GitHub.

O projeto de código aberto Mooncake gira em torno de um pool de cache KVCache em grande escala, com o objetivo de gradualmente abrir o código do Mooncake Store, um cache de vários níveis de alto desempenho KVCache, de forma faseada. Ao mesmo tempo, o projeto será compatível com vários mecanismos de raciocínio e recursos de armazenamento e transmissão subjacentes.

Atualmente, parte do mecanismo de transferência Transfer Engine já foi lançado como código aberto globalmente no GitHub. O objetivo final do projeto Mooncake é construir uma nova interface padrão de armazenamento semântico de memória de alto desempenho para a era dos grandes modelos e fornecer os esquemas de implementação de referência correspondentes.

Xu Xinran, vice-presidente de engenharia da Kimi, disse: "Por meio da estreita colaboração com o laboratório MADSys da Universidade Tsinghua, desenvolvemos em conjunto a arquitetura de raciocínio de modelo grande separável Mooncake, que realiza a otimização máxima dos recursos de raciocínio.

O Mooncake não apenas melhora a experiência do usuário, mas também reduz os custos e fornece uma solução eficaz para lidar com necessidades de texto longo e alta concorrência." Ele espera que mais empresas e instituições de pesquisa se juntem ao projeto Mooncake para explorar conjuntamente arquiteturas de sistemas de raciocínio de modelos mais eficientes, permitindo que produtos baseados em tecnologia de modelos grandes, como assistentes de IA, beneficiem um público mais amplo.

Entrada do projeto:https://github.com/kvcache-ai/Mooncake

Destaques:
🌟 A Kimi e a Universidade Tsinghua lançam em conjunto o sistema de raciocínio Mooncake para melhorar a eficiência do raciocínio de IA.
🔧 O projeto Mooncake já foi lançado como código aberto no GitHub, com o objetivo de construir uma interface padrão de armazenamento semântico de memória de alto desempenho.
🤝 Esperamos que mais empresas e instituições de pesquisa participem para promover conjuntamente o progresso da tecnologia de IA.

Notícias e Informações de IA

Kimi e Tsinghua lançam arquitetura de inferência de modelo grande de código aberto Mooncake para melhorar a eficiência de inferência de IA

AIbase基地

Notícias de IA Relacionadas Recomendadas

Apresentado como o OCR mais poderoso do mundo! Análise completa da nova API OCR da Mistral

Quantexa arrecada US$ 175 milhões, atingindo avaliação de US$ 2,6 bilhões, impulsionando negócios de análise de dados e IA

CoreWeave adquire a plataforma de desenvolvimento de IA Weights&Biases para acelerar a inovação em inteligência artificial

Estudo de Stanford revela: adoção de ferramentas de escrita de IA é mais rápida em regiões com baixa escolaridade