A equipe do modelo Doubao de grandes dimensões da ByteDance anunciou hoje o desenvolvimento bem-sucedido de uma nova arquitetura de modelo esparso, o UltraMem. Essa arquitetura resolve eficazmente o problema de alto acesso à memória durante a inferência do modelo MoE (Mixture of Experts), aumentando a velocidade de inferência em 2 a 6 vezes e reduzindo o custo de inferência em até 83%. Esse avanço inovador abre um novo caminho para a inferência eficiente de modelos de grandes dimensões.
A arquitetura UltraMem resolveu com sucesso o gargalo de acesso à memória na inferência da arquitetura MoE, garantindo a eficácia do modelo. Os resultados experimentais mostram que, com os mesmos parâmetros e condições de ativação, o UltraMem não apenas apresenta desempenho superior ao MoE, mas também aumenta a velocidade de inferência em 2 a 6 vezes. Além disso, com tamanhos de lote comuns, o custo de acesso à memória do UltraMem é quase equivalente ao de modelos Dense com a mesma capacidade de computação, reduzindo significativamente o custo de inferência.
A equipe de pesquisa treinou um modelo UltraMem com 20 milhões de valores. Os resultados experimentais mostram que, com os mesmos recursos computacionais, o modelo alcançou simultaneamente velocidade de inferência e desempenho do modelo líderes do setor. Esse resultado valida a excelente capacidade de escalonamento da arquitetura UltraMem, estabelecendo uma base tecnológica para a construção de modelos com bilhões de valores ou especialistas.
Com o aumento contínuo do tamanho dos modelos de grandes dimensões, o custo e a velocidade de inferência tornaram-se fatores cruciais que limitam sua aplicação. Embora a arquitetura MoE já tenha alcançado o desacoplamento entre computação e parâmetros, sua alta demanda de acesso à memória durante a inferência leva a um aumento no tempo de resposta. A introdução da arquitetura UltraMem resolve eficazmente esse problema, oferecendo uma nova opção tecnológica para a aplicação em larga escala de modelos de grandes dimensões.