No campo da inteligência artificial, o lançamento do DeepSeek-R1 gerou grande atenção, representando um avanço disruptivo na indústria de IA. Sua arquitetura de rede de atenção latente multi-cabeça (Multi-head Latent Attention, MLA) utiliza a técnica de compressão de baixa classificação para reduzir significativamente o custo de treinamento e inferência, chegando a apenas um décimo do custo de modelos grandes de desempenho equivalente. Essa conquista foi alcançada pelo pós-doutorando Ji Tao e sua equipe do laboratório de NLP da Universidade de Fudan, com o objetivo de permitir que qualquer modelo de linguagem grande pré-treinado seja rapidamente migrado para a arquitetura MLA, sem a necessidade de treinamento completo desde o início.
Atualmente, os principais modelos grandes são baseados na mecânica de atenção multi-cabeça padrão (MHA) e suas variantes, os quais apresentam desvantagens significativas em termos de custo de inferência em comparação com o MLA. Portanto, a equipe de pesquisa propôs a estrutura MHA2MLA, que visa migrar arquiteturas MHA/GQA para MLA por meio de duas etapas principais: preservação parcial de RoPE e aproximação de baixa classificação da representação conjunta chave-valor.
Na implementação do MHA2MLA, a equipe primeiro utilizou uma estratégia de ajuste fino parcial de RoPE para separar o código de posição de dimensões maiores, mantendo apenas algumas dimensões relacionadas à posição, resolvendo assim o conflito entre MLA e RoPE. Em seguida, utilizou a técnica de decomposição de valores singulares (SVD) para aproximar de baixa classificação os vetores chave-valor, maximizando a preservação do conhecimento pré-treinado e reduzindo significativamente o espaço de cache. Os resultados experimentais mostraram que apenas 0,3% a 0,6% dos dados pré-treinados são necessários para o ajuste fino, a fim de recuperar basicamente a perda de desempenho durante o processo de migração.
Quando combinado com outras técnicas de inferência eficiente, como a quantização de cache KV de 4 bits, o cache KV do modelo Llama2-7B foi reduzido em 92,19%, com uma perda de desempenho de apenas 0,5%. Essa conquista demonstra a excelente compatibilidade da estrutura MHA2MLA com técnicas de compressão, mantendo ao mesmo tempo a capacidade de inferência e o processamento de contextos longos do modelo, oferecendo uma nova rota viável para a implantação de modelos de linguagem grandes com recursos eficientes.
No entanto, a equipe de pesquisa observou que os experimentos foram limitados pelas condições de hardware e ainda não abrangem modelos como o Llama3, que requerem ajuste fino de contexto longo de 128K. Pesquisas futuras se concentrarão na expansão para mais arquiteturas de modelos e na combinação com estratégias de ajuste fino de parâmetros eficientes, para reduzir ainda mais a escala de atualização de parâmetros durante o processo de migração.