Dans le domaine de l'intelligence artificielle, le lancement de DeepSeek-R1 a suscité un intérêt considérable. Cette innovation représente une avancée révolutionnaire pour l'industrie de l'IA. Son architecture de réseau d'attention latente à plusieurs têtes (Multi-head Latent Attention, MLA) utilise une technique de compression de faible rang pour réduire considérablement les coûts d'entraînement et d'inférence, atteignant même un dixième du coût des grands modèles de performances équivalentes. Ce résultat a été obtenu par le Dr Tao Ji et son équipe du laboratoire NLP de l'Université Fudan. L'objectif est de permettre la migration rapide de n'importe quel grand modèle linguistique pré-entraîné vers l'architecture MLA, sans avoir à le réentraîner à partir de zéro.

Actuellement, les grands modèles dominants sont généralement basés sur le mécanisme d'attention multi-têtes standard (MHA) et ses variantes. Ces modèles présentent un désavantage significatif en termes de coût d'inférence par rapport à MLA. Par conséquent, l'équipe de recherche a proposé le cadre MHA2MLA, qui vise à réaliser la migration des architectures MHA/GQA vers MLA en deux étapes clés : la préservation partielle de RoPE et l'approximation de faible rang de la représentation conjointe clé-valeur.

image.png

Lors de la mise en œuvre de MHA2MLA, l'équipe a d'abord séparé l'encodage de position des grandes dimensions grâce à une stratégie d'ajustement fin de RoPE partielle, conservant ainsi un petit nombre de dimensions liées à la position. Cela a résolu le conflit entre MLA et RoPE. Ensuite, une approximation de faible rang des vecteurs clé-valeur a été réalisée grâce à la technique de décomposition en valeurs singulières (SVD), afin de maximiser la conservation des connaissances pré-entraînées tout en réduisant considérablement l'espace de cache. Les résultats expérimentaux montrent que seulement 0,3 % à 0,6 % des données pré-entraînées sont nécessaires pour l'ajustement fin afin de récupérer essentiellement les pertes de performance lors du processus de migration.

Combiné à d'autres techniques d'inférence efficaces, telles que la quantification du cache KV à 4 bits, le cache KV du modèle Llama2-7B a été réduit de 92,19 %, avec une perte de performance de seulement 0,5 %. Ce résultat démontre la compatibilité supérieure du cadre MHA2MLA avec les techniques de compression, tout en maintenant les capacités d'inférence et de traitement de contextes longs du modèle. Il offre ainsi une nouvelle voie viable pour le déploiement de grands modèles linguistiques efficaces en termes de ressources.

Cependant, l'équipe de recherche souligne que les expériences ont été limitées par les contraintes matérielles et n'ont pas encore couvert les modèles tels que Llama3 nécessitant un ajustement fin du contexte long de 128 K. Les recherches futures se concentreront sur l'extension à davantage d'architectures de modèles et sur l'intégration de stratégies d'ajustement fin efficaces en termes de paramètres, afin de réduire davantage l'ampleur des mises à jour des paramètres lors du processus de migration.