Traditionelle, große Sprachmodelle (LLMs) werden üblicherweise mit rechenintensiven Methoden feinabgestimmt und sind bei der Bearbeitung vielfältiger Aufgaben statisch. Um diese Herausforderungen zu bewältigen, hat Sakana AI ein neues adaptives Framework namens Transformer² vorgestellt. Transformer² kann die Gewichte des LLM während des Inferenzprozesses in Echtzeit anpassen und sich so an verschiedene unbekannte Aufgaben anpassen – flexibel wie ein Tintenfisch.
Der Kern von Transformer² ist ein zweistufiger Mechanismus:
In der ersten Stufe analysiert ein Steuerungssystem die Anfrage des Benutzers und identifiziert die Eigenschaften der Aufgabe.
In der zweiten Stufe werden dynamisch mehrere „Experten“-Vektoren gemischt. Diese Vektoren werden mit Reinforcement Learning trainiert, wobei jeder Vektor auf einen bestimmten Aufgabentyp spezialisiert ist und so ein maßgeschneidertes Modellverhalten für die aktuelle Aufgabe erzeugt.
Im Vergleich zu traditionellen Feinabstimmungsmethoden (wie LoRA) verwendet diese Methode weniger Parameter und ist effizienter. Transformer² zeigt eine starke Adaptivität in verschiedenen LLM-Architekturen und Modalitäten (einschließlich visueller Sprach-Aufgaben).
Schlüsseltechnologien von Transformer²
Singulärwert-Feinabstimmung (SVF): Dies ist eine neuartige, parametereffiziente Feinabstimmungsmethode, die durch Extraktion und Anpassung der Singulärwerte in den Gewichtsmatrizen des Modells funktioniert. Diese Methode reduziert das Risiko des Overfittings, verringert den Rechenaufwand und ermöglicht eine inhärente Kombinierbarkeit. Durch Training mit Reinforcement Learning auf schmalen Datensätzen können effektive, domänenspezifische „Experten“-Vektoren gewonnen werden, die die Leistung bei Aufgaben zu verschiedenen Themen direkt optimieren.
Adaptive Strategien: In der Inferenzphase verwendet Transformer² drei verschiedene adaptive Strategien, um die mit SVF trainierten Expertenvektoren zu kombinieren. Diese Strategien können die Gewichte des LLM je nach Testbedingungen dynamisch anpassen und so eine Selbstadaption ermöglichen.
Vorteile von Transformer²
Dynamische Adaptivität: Transformer² kann sein Verhalten basierend auf Änderungen der Umgebung oder des internen Zustands bewerten und modifizieren, ohne externe Eingriffe.
Parametereffizienz: Im Vergleich zu Methoden wie LoRA verwendet SVF weniger Parameter, erzielt aber eine höhere Leistung.
Modularität: Expertenvektoren bieten Modularität, während adaptive Strategien den am besten geeigneten Vektor zur Bearbeitung der Eingabe dynamisch identifizieren und kombinieren können.
Optimierung durch Reinforcement Learning: Durch Reinforcement Learning kann die Aufgabenleistung direkt optimiert werden, ohne teure Feinabstimmungsprozesse und große Datensätze zu benötigen.
Modellübergreifende Kompatibilität: SVF-Expertenvektoren können dank ihrer inhärenten Ordnung zwischen verschiedenen LLM-Modellen übertragen werden.
Experimentelle Ergebnisse
Experimente an mehreren LLMs und Aufgaben zeigen, dass SVF die Leistung traditioneller Feinabstimmungsstrategien (wie LoRA) konsistent übertrifft.
Die adaptiven Strategien von Transformer² zeigen eine deutliche Verbesserung bei verschiedenen unbekannten Aufgaben.
Die Verwendung von Klassifizierungsexperten zur Aufgabenklassifizierung erzielt eine höhere Klassifizierungsgenauigkeit als die direkte Verwendung von Prompt Engineering.
Der Beitrag des adaptiven Koeffizienten (αk) ist in verschiedenen Modell- und Aufgabenkombinationen ungleichmäßig.
Zukunftsaussichten
Obwohl Transformer² bemerkenswerte Fortschritte erzielt hat, gibt es noch Raum für Verbesserungen. Zukünftige Forschung könnte sich mit Modellfusionstechniken befassen, um verschiedene Expertenmodelle zu einem leistungsfähigeren Modell zu verschmelzen. Darüber hinaus könnte untersucht werden, wie die CEM-Methode auf mehr Fachgebiete erweitert werden kann.
Zusammenfassend lässt sich sagen, dass Transformer² einen großen Sprung im Bereich der adaptiven LLMs darstellt und den Weg für den Aufbau wirklich dynamischer, selbstorganisierender KI-Systeme ebnet.
论文地址:https://arxiv.org/pdf/2501.06252