Sakana AI, ein auf natürlich inspirierte Algorithmen spezialisiertes KI-Forschungslabor, hat kürzlich ein innovatives adaptives Sprachmodell namens Transformer² (Transformer-Quadrat) vorgestellt. Dieses Modell kann ohne teures Feintuning während des Inferenzprozesses dynamisch lernen und sich an neue Aufgaben anpassen. Dies stellt einen wichtigen Schritt in der Entwicklung von Large Language Models (LLMs) dar.

Die Kerninnovation von Transformer² liegt in seinem einzigartigen zweistufigen Mechanismus zur dynamischen Gewichtsanpassung. Zuerst analysiert es die eingehende Benutzeranfrage und versteht die Aufgabenanforderung; dann nutzt es mithilfe mathematischer Verfahren die Singulärwertzerlegung (SVD), um die Modellgewichte an die Aufgabenanforderung anzupassen. Durch selektives Anpassen wichtiger Komponenten der Modellgewichte kann Transformer² die Leistung in Echtzeit optimieren, ohne zeitaufwändiges erneutes Training. Dies steht im Gegensatz zu herkömmlichen Feintuning-Methoden, bei denen die Parameter nach dem Training statisch bleiben oder Methoden wie Low-Rank Adaptation (LoRA) verwendet werden, die nur einen kleinen Teil der Parameter verändern.

QQ20250124-104642.png

Transformer-Quadrat Training und Inferenz (Quelle: arXiv)

Um die dynamische Anpassung zu erreichen, verwendeten die Forscher die Methode der Singulärwert-Feinabstimmung (SVF). Während des Trainings lernt SVF aus den SVD-Komponenten des Modells eine Reihe von sogenannten z-Vektoren, die Fertigkeitsrepräsentationen darstellen. Während der Inferenz bestimmt Transformer² durch Analyse des Prompts die benötigten Fertigkeiten und konfiguriert dann die entsprechenden z-Vektoren, um eine auf jeden Prompt zugeschnittene Antwort zu ermöglichen.

Testergebnisse zeigen, dass Transformer² LoRA-Modelle in verschiedenen Aufgaben wie Mathematik, Codierung, Schlussfolgerung und visuelle Frage-Antwort-Systeme übertrifft und dabei weniger Parameter benötigt. Besonders bemerkenswert ist die Fähigkeit des Modells zum Wissenstransfer: Die in einem Modell erlernten z-Vektoren können auf ein anderes Modell angewendet werden, was ein großes Anwendungspotenzial aufzeigt.

QQ20250124-104627.png

Transformer-Quadrat (SVF in der Tabelle) im Vergleich zu Basismodellen und LoRA (Quelle: arXiv)

Sakana AI hat den Trainingscode der Transformer²-Komponenten auf seiner GitHub-Seite veröffentlicht und damit anderen Forschern und Entwicklern den Zugang ermöglicht.

Mit der zunehmenden Erforschung von LLM-Anwendungen in Unternehmen wird die Anpassungstechnik während der Inferenz immer wichtiger. Transformer² verändert zusammen mit anderen Technologien wie Googles Titans die Art und Weise, wie LLMs eingesetzt werden, indem es Benutzern ermöglicht, das Modell dynamisch an ihre spezifischen Bedürfnisse anzupassen, ohne es neu trainieren zu müssen. Dieser Fortschritt wird LLMs in einem breiteren Bereich nützlicher und praktikabler machen.

Die Forscher von Sakana AI geben an, dass Transformer² eine Brücke zwischen statischer und lebendiger KI darstellt und die Grundlage für effiziente, personalisierte und vollständig integrierte KI-Tools legt.