No primeiro dia da semana de código aberto DeepSeek, foi lançado oficialmente o FlashMLA, seu mais recente avanço tecnológico. Trata-se de um núcleo de decodificação de atenção multicamadas (Multi-Layer Attention) altamente eficiente, projetado especificamente para GPUs NVIDIA com arquitetura Hopper. Essa tecnologia foi otimizada especialmente para cenários com sequências de comprimento variável, proporcionando um aumento significativo no desempenho de inferência de grandes modelos.
As principais características técnicas do FlashMLA incluem suporte completo para precisão BF16 e um sistema de cache de chave-valor em páginas (Paged KV Cache) com tamanho de bloco de 64, permitindo um gerenciamento de memória mais preciso. Em termos de desempenho, na plataforma CUDA 12.6, o FlashMLA alcançou resultados notáveis na GPU H800SXM5: em cenários com memória limitada, atingiu uma velocidade de processamento de 3000 GB/s, enquanto em cenários com limitação de computação, alcançou 580 TFLOPS de poder computacional.
Este projeto já foi validado em ambiente de produção, demonstrando excelente estabilidade. A equipe de desenvolvimento afirma que o design do FlashMLA se baseia nas experiências bem-sucedidas de projetos como FlashAttention2&3 e Cutlass, e que, a partir disso, foram alcançados avanços inovadores.
Os desenvolvedores podem implantar o FlashMLA rapidamente por meio de um simples comando de instalação: basta executar "python setup.py install" para concluir a instalação. Em seguida, podem executar o script de teste "python tests/test_flash_mla.py" para experimentar seu desempenho.
Endereço do repositório: https://github.com/deepseek-ai/FlashMLA