Meta hat kürzlich bahnbrechende Forschungsergebnisse veröffentlicht: Ein neuartiges Memory-Layer-Verfahren, das die faktische Genauigkeit großer Sprachmodelle (LLMs) deutlich verbessert und eine beispiellose Skalierung der Parameter ermöglicht. Diese Technologie stellt nicht nur die traditionellen Skalierungsmethoden neuronaler Netze in Frage, sondern eröffnet auch neue Wege für die zukünftige Gestaltung von KI-Architekturen.

Der Kern dieser Forschung liegt in der Nutzung eines trainierbaren Key-Value-Lookup-Mechanismus, der dem Modell zusätzliche Parameter hinzufügt, ohne den Rechenaufwand (FLOPs) zu erhöhen. Die Kernidee besteht darin, die rechenintensiven Feedforward-Schichten durch eine spärlich aktivierte Memory-Layer zu ergänzen, um spezielle Funktionen für die Speicherung und den Abruf von Informationen bereitzustellen.

image.png

Im Vergleich zu traditionellen dichten Netzen ist die Memory-Layer bei der Informationsverwaltung effizienter. So muss ein Sprachmodell beispielsweise Namen, Geburtstage, Hauptstädte etc. lernen. Die Memory-Layer kann dies über einen einfachen Key-Value-Lookup-Mechanismus erreichen – effizienter als mit Feedforward-Netzen.

Der Hauptbeitrag der Studie liegt in der beispiellosen Skalierung der Memory-Layer auf 128 Milliarden Parameter. Die Ergebnisse zeigen, dass Sprachmodelle mit verbesserten Memory-Layern in Downstream-Aufgaben nicht nur dichte Modelle mit doppeltem Rechenaufwand übertreffen, sondern auch bei übereinstimmenden Rechen- und Parameteraufwand Mixed-Expert-Modelle. Die Leistungssteigerung ist besonders bei faktischen Aufgaben deutlich.

image.png

Meta-Forscher erreichen dies, indem sie ein oder mehrere Feedforward-Netze (FFNs) im Transformer-Netzwerk durch Memory-Layer ersetzen. Dieser Austausch zeigt konsistente Vorteile bei unterschiedlichen Basismodellgrößen (von 134 Millionen bis 8 Milliarden Parametern) und Speicherkapazitäten (bis zu 128 Milliarden Parametern). Die Ergebnisse zeigen, dass Memory-Layer die faktische Genauigkeit von Sprachmodellen um über 100 % steigern können, mit deutlichen Verbesserungen beim Programmieren und Allgemeinwissen. In vielen Fällen erreichen Modelle mit Memory-Layern die Leistung von dichten Modellen mit dem vierfachen Rechenaufwand.

Die Forscher haben die Memory-Layer außerdem in mehreren Punkten verbessert, um Herausforderungen bei der Skalierung zu bewältigen:

Produktschlüssel-Lookup-Mechanismus: Um Engpässe beim Abrufen von Abfrage-Schlüsseln in großen Memory-Layern zu lösen, wurde eine trainierbare multiplikative Quantisierung von Schlüsseln verwendet, wodurch der Vergleich jedes Abfrage-Schlüsselpaares vermieden wird.

Parallelisierung der Memory-Layer: Für die Parallelisierung der Memory-Layer in einer Multi-GPU-Umgebung wurden die Embedding-Lookup- und Aggregationsoperationen auf mehrere GPUs verteilt.

Gemeinsamer Speichermechanismus: Um die Parameter maximal zu teilen, wird ein gemeinsamer Speicherparameterpool für alle Memory-Layer verwendet.

Optimierung von Leistung und Stabilität: Mit benutzerdefinierten CUDA-Kernen wurde die EmbeddingBag-Operation optimiert, was die Auslastung der Speicherbandbreite deutlich verbessert. Zusätzlich wurde ein eingangsabhängiger Gating-Mechanismus mit Silu-Nichtlinearität eingeführt, um die Trainingsleistung und -stabilität zu verbessern.

image.png

Die Ergebnisse zeigen außerdem folgende wichtige Erkenntnisse:

Die Größe der Memory-Layer hat einen erheblichen Einfluss auf die Leistung: Mit zunehmender Größe der Memory-Layer verbessert sich die Leistung bei der Beantwortung faktischer Fragen kontinuierlich.

Mehrere Memory-Layer sind besser als ein einzelner: Die Verwendung mehrerer Memory-Layer mit geteilten Parametern kann die Leistung verbessern, aber zu viele Memory-Layer verringern die Leistung. Die optimale Anzahl an Memory-Layern beträgt drei.

Memory-Layer lernen Fakten schneller: In der frühen Trainingsphase verbessern sich die Leistungen von Modellen mit Memory-Layern schneller, was darauf hindeutet, dass Memory-Layer dem Modell helfen, Fakten schneller zu lernen.

Memory-Layer und dichte Schichten ergänzen sich: Experimente zeigen, dass sowohl spärliche Memory-Layer als auch dichte Feedforward-Schichten unerlässlich sind.

Um die Wirksamkeit der Memory-Layer-Technologie zu überprüfen, wurden Bewertungen auf mehreren Benchmarks durchgeführt, darunter:

Faktische Fragen beantworten (NaturalQuestions, TriviaQA)

Mehrstufiges Fragen beantworten (HotpotQA)

Wissenschaftliches und alltägliches Wissen (MMLU, HellaSwag, OBQA, PIQA)

Programmieren (HumanEval, MBPP)

Die Ergebnisse zeigen, dass Modelle mit Memory-Layern in diesen Tests die Basismodelle übertreffen, insbesondere bei der Beantwortung faktischer Fragen, wo die Leistungssteigerung am deutlichsten ist.

Metas Forschung bietet nicht nur neue Ansätze für die Skalierung von KI-Modellen, sondern eröffnet auch neue Wege zur Lösung faktischer Probleme und zur Verbesserung der Modellleistung. Die Forscher gehen davon aus, dass die Memory-Layer-Technologie eine hohe Skalierbarkeit aufweist und zukünftig in verschiedenen KI-Anwendungen breite Anwendung finden wird. Sie weisen auch darauf hin, dass Memory-Layer zwar noch Herausforderungen in Bezug auf die Hardwarebeschleunigung aufweisen, aber glauben, dass durch kontinuierliche Forschung und Optimierung deren Leistung mit traditionellen Feedforward-Netzen vergleichbar oder sogar überlegen sein wird.

Darüber hinaus möchte das Meta-Forschungsteam die Leistung der Memory-Layer durch neue Lernmethoden weiter verbessern, das Vergessen und Halluzinieren von Modellen reduzieren und lebenslanges Lernen ermöglichen.

Die Veröffentlichung dieser Forschung hat dem KI-Bereich zweifellos neuen Schwung verliehen und weckt große Erwartungen an die zukünftige Entwicklung der KI.

Artikel: https://arxiv.org/pdf/2412.09764