Forscher von Nvidia, dem Branchenriesen für KI-Chips, haben kürzlich eine innovative Architektur-Optimierungstechnik namens „FFN Fusion“ vorgestellt. Diese Technik zielt darauf ab, den inhärenten Flaschenhals serieller Berechnungen in der Transformer-Architektur zu beheben und so die Inferenz-Effizienz großer Sprachmodelle (LLMs) deutlich zu verbessern. Dies ebnet den Weg für einen breiteren Einsatz leistungsstarker KI-Anwendungen.

In den letzten Jahren haben große Sprachmodelle in Bereichen wie der Verarbeitung natürlicher Sprache, der wissenschaftlichen Forschung und der Entwicklung von Dialogagenten beeindruckende Fähigkeiten gezeigt. Mit zunehmender Größe und Komplexität der Modelle steigt jedoch auch der Bedarf an Rechenressourcen für den Inferenzprozess erheblich, was zu Effizienzproblemen führt. Die Transformer-Architektur bildet die Grundlage von LLMs. Ihr abwechselnder Mechanismus der Aufmerksamkeit und die Feedforward-Netzwerk-(FFN-)Schichten erfordern die sequentielle Verarbeitung der Eingaben. Diese inhärente serielle Struktur führt bei größeren Modellen zu deutlich höheren Rechen- und Kommunikationskosten zwischen GPU und Prozessor, was die Effizienz mindert und die Bereitstellungskosten erhöht. Dies ist besonders in Szenarien mit schneller Generierung mehrerer Tokens (z. B. bei Echtzeit-KI-Assistenten) ein Problem.

QQ_1743400012665.png

Um dieser Herausforderung zu begegnen, haben die Nvidia-Forscher die FFN-Fusion-Technik entwickelt. Die Kernidee besteht darin, aufeinanderfolgende, schwach voneinander abhängige FFN-Schichten zu einem breiteren FFN zusammenzufassen. Die Forscher stellten fest, dass nach dem Entfernen der Aufmerksamkeitsschichten oft lange Sequenzen aufeinanderfolgender FFN-Schichten in LLMs vorhanden sind. Durch die Analyse dieser Sequenzen entdeckten sie, dass die Abhängigkeit zwischen diesen FFN-Schichten gering ist und sie daher parallel ausgeführt werden können.

Die mathematische Grundlage der FFN-Fusion besteht darin, die Gewichte mehrerer seriell verknüpfter FFNs zu verketten und so ein äquivalentes, parallel berechenbares Einzelmodul zu erstellen. Wenn beispielsweise drei FFNs sequentiell gestapelt sind, wobei die Ausgabe jedes FFNs als Eingabe für das nächste dient, eliminiert die FFN-Fusion diese Abhängigkeit, sodass die drei FFNs dieselbe Eingabe gleichzeitig verarbeiten und ihre Ausgaben aggregieren können. Theoretische Analysen zeigen, dass das fusionierte FFN dieselbe Repräsentationsfähigkeit wie das ursprüngliche FFN beibehält.

Ultra-253B-Base: Verbesserte Leistung und Effizienz

Die Nvidia-Forscher wandten die FFN-Fusion-Technik auf das Llama-3.1-405B-Instruct-Modell von Meta an und erstellten durch Pruning und Rekonstruktion ein neues Modell namens Ultra-253B-Base. Die Ergebnisse zeigen eine deutliche Verbesserung der Inferenzgeschwindigkeit und Ressourceneffizienz. Konkret wurde bei einer Batch-Größe von 32 die Inferenzverzögerung um das 1,71-fache reduziert und die Rechenkosten pro Token um das 35-fache gesenkt.

Besonders beeindruckend ist, dass die Effizienzsteigerung nicht auf Kosten der Modellleistung ging. Ultra-253B-Base erzielte in mehreren etablierten Benchmark-Tests hervorragende Ergebnisse, z. B.: MMLU 85,17 %, MMLU-Pro 72,25 %, HumanEval 86,58 %, Arena Hard 84,92 %, MT-Bench 9,19 %. Diese Ergebnisse sind oft vergleichbar oder sogar besser als die des ursprünglichen 405-Milliarden-Parameter-Modells, obwohl Ultra-253B-Base nur 253 Milliarden Parameter enthält. Darüber hinaus wurde der Speicherverbrauch dank Optimierung des kv-Cache halbiert.

QQ_1743400044821.png

Die Forscher verwendeten die Kosinusähnlichkeit, um die Ausgabe zwischen FFN-Schichten zu analysieren und schwach voneinander abhängige Bereiche zu identifizieren, die sich am besten für die Fusion eignen. Die FFN-Fusion-Technik wurde an Modellen unterschiedlicher Größe (einschließlich 49, 70 und 253 Milliarden Parametern) getestet und zeigt eine gute Generalisierbarkeit.

Diese Studie zeigt, dass durch gründliche Analyse und geschicktes Architekturdesign die Effizienz von LLMs deutlich verbessert werden kann. FFN-Fusion legt den Grundstein für die Entwicklung parallelerer, hardware-angepasster LLMs. Obwohl die Parallelisierung vollständiger Transformer-Module aufgrund stärkerer Abhängigkeiten zwischen den Schichten größere Herausforderungen mit sich bringt, weist der Erfolg der FFN-Fusion zweifellos einen wichtigen Weg für die zukünftige Effizienzoptimierung von LLMs.

Artikel:https://arxiv.org/abs/2503.18908