DeepSeek a officiellement publié son dernier résultat technologique, FlashMLA, lors du premier jour de sa semaine de développement open source. Il s'agit d'un noyau de décodage d'attention multicouche (Multi-Layer Attention) hautement efficace, spécialement conçu pour les GPU NVIDIA Hopper. Cette technologie est optimisée pour les scénarios de séquences de longueur variable et améliore considérablement les performances d'inférence des grands modèles.
Les principales caractéristiques techniques de FlashMLA incluent une prise en charge complète de la précision BF16 et l'utilisation d'un système de cache clé-valeur paginé (Paged KV Cache) avec une taille de bloc de 64, permettant une gestion de la mémoire plus précise. En termes de performances, sur une plateforme CUDA 12.6 et un GPU H800SXM5, FlashMLA a obtenu des résultats remarquables : une vitesse de traitement de 3000 Go/s en cas de limitation mémoire et une puissance de calcul de 580 TFLOPS en cas de limitation de calcul.
Ce projet a été validé en environnement de production et a démontré une excellente stabilité. L'équipe de développement a indiqué que la conception de FlashMLA s'inspire des excellentes expériences de projets tels que FlashAttention2 & 3 et cutlass, et a réalisé des avancées innovantes sur cette base.
Les développeurs peuvent déployer rapidement FlashMLA grâce à une simple commande d'installation : il suffit d'exécuter « python setup.py install » pour terminer l'installation, puis d'exécuter le script de test « python tests/test_flash_mla.py » pour tester ses performances.
Adresse du dépôt : https://github.com/deepseek-ai/FlashMLA