Im Bereich der künstlichen Intelligenz hat die Einführung von DeepSeek-R1 große Aufmerksamkeit erregt. Diese Innovation stellt einen bahnbrechenden Fortschritt in der KI-Industrie dar. Seine Architektur, das Multi-Head Latent Attention (MLA) Netzwerk, nutzt die Technik der Low-Rank-Kompression, um die Trainings- und Inferenzkosten deutlich zu reduzieren – sogar auf nur ein Zehntel der Kosten vergleichbarer großer Modelle. Diese Leistung wurde von Dr. Ji Tao und seinem Team am NLP-Labor der Fudan-Universität erzielt. Ziel ist es, die schnelle Übertragung beliebiger vortrainierter großer Sprachmodelle auf die MLA-Architektur zu ermöglichen, ohne dass ein vollständiges Neutrainieren erforderlich ist.
Derzeit basieren die meisten gängigen großen Modelle auf dem Standard-Multi-Head-Aufmerksamkeitsmechanismus (MHA) und seinen Varianten. Diese Modelle weisen im Vergleich zu MLA einen deutlich höheren Inferenzkostenaufwand auf. Daher hat das Forschungsteam den MHA2MLA-Framework entwickelt, der durch zwei wichtige Schritte – die teilweise Beibehaltung von RoPE und die Low-Rank-Approximation der Key-Value-Vereinigungsdarstellung – die Migration von MHA/GQA-Architekturen zu MLA erfolgreich ermöglicht.
Bei der Implementierung von MHA2MLA trennte das Team zunächst durch eine partielle RoPE-Feinabstimmungsstrategie die Positionskodierung von der hohen Dimensionalität und behielt nur wenige positionsbezogene Dimensionen bei. Dies löste den Konflikt zwischen MLA und RoPE. Anschließend wurde durch die Singularwertzerlegung (SVD) eine Low-Rank-Approximation der Key-Value-Vektoren durchgeführt, um das vortrainierte Wissen maximal zu erhalten und gleichzeitig den Cache-Speicherplatz deutlich zu reduzieren. Die Ergebnisse zeigen, dass nur 0,3 % bis 0,6 % der vortrainierten Daten zum Feinabstimmen benötigt werden, um den Leistungsverlust während des Migrationsprozesses weitgehend auszugleichen.
In Kombination mit anderen effizienten Inferenztechniken, wie z. B. der 4-Bit-KV-Cache-Quantisierung, konnte der KV-Cache des Llama2-7B-Modells um 92,19 % reduziert werden, während der Leistungsverlust nur 0,5 % betrug. Dieses Ergebnis zeigt die hervorragende Kompatibilität des MHA2MLA-Frameworks mit Kompressionstechniken bei gleichzeitiger Beibehaltung der Inferenzfähigkeit und der Fähigkeit zur Verarbeitung langer Kontexte des Modells. Es bietet einen neuen, praktikablen Weg zur Bereitstellung ressourceneffizienter großer Sprachmodelle.
Das Forschungsteam weist jedoch darauf hin, dass die Experimente durch die Hardwarebedingungen eingeschränkt waren und Modelle wie Llama3, die eine Feinabstimmung mit 128K langem Kontext benötigen, noch nicht abgedeckt wurden. Zukünftige Forschungsarbeiten werden sich auf die Erweiterung auf mehr Modellarchitekturen und die Kombination mit parametrisch effizienten Feinabstimmungsstrategien konzentrieren, um den Umfang der Parameteraktualisierung während des Migrationsprozesses weiter zu reduzieren.