In der Welt der künstlichen Intelligenz sind Sprachmodelle wie undurchdringliche Black Boxes: Wir geben Text ein, und sie geben Bedeutung aus. Doch was genau geschieht dabei? Die neueste Forschung von Google DeepMind – Gemma Scope – lüftet einen Teil dieses Geheimnisses.

image.png

Die Aktivierung von Sprachmodellen wird oft als eine spärliche, lineare Kombination von Vektoren betrachtet, doch die wahre Bedeutung dieser Kombinationen bleibt schwer fassbar. Um dieses Problem zu lösen, werden spärliche Autoencoder (SAEs) als Methode des unüberwachten Lernens vielversprechend angesehen. Diese Technologie steckt jedoch noch in den Kinderschuhen, die Trainingskosten sind hoch und der Forschungsfortschritt langsam.

Das Google DeepMind-Team hat Gemma Scope trainiert und veröffentlicht, einen spärlichen Autoencoder, der auf dem Gemma2-Modell trainiert wurde. Er zerlegt und rekonstruiert die Aktivierung des Sprachmodells mithilfe eines Encoders und Decoders, um aussagekräftige Merkmale aufzudecken.

Gemma Scope verwendet einen innovativen JumpReLU SAE, der eine verschobene Heaviside-Sprungfunktion als Gate-Mechanismus verwendet, um die Aktivierung zu steuern und die Anzahl der latenten Merkmale effektiv zu kontrollieren. Dieses Design optimiert nicht nur den Rekonstruktionsverlust, sondern regularisiert auch direkt die Anzahl der aktiven latenten Merkmale.

image.png

Gemma Scope wurde sorgfältig auf der Aktivierung des Gemma2-Modells trainiert. Während des Trainings wurden die Aktivierungsvektoren des Modells normalisiert, und die SAEs wurden in verschiedenen Schichten und Positionen trainiert, darunter die Ausgabe von Attention Heads, die Ausgabe von MLPs und der Reststrom nach MLPs.

Die Leistung von Gemma Scope wurde aus verschiedenen Blickwinkeln bewertet. Die Ergebnisse zeigen, dass der Delta-Verlust von Reststrom-SAEs in der Regel höher ist und die Sequenzlänge einen erheblichen Einfluss auf die Leistung von SAEs hat. Darüber hinaus unterscheiden sich die Ergebnisse für verschiedene Teilmengen von Datensätzen. Gemma Scope schneidet bei DeepMind Mathematics am besten ab.

Die Veröffentlichung von Gemma Scope bietet die Möglichkeit, eine Reihe offener Fragen zu lösen. Es kann nicht nur helfen, SAEs besser zu verstehen, sondern auch die Leistung bei praktischen Aufgaben verbessern und sogar Red-Team-Tests für SAEs durchführen, um festzustellen, ob sie tatsächlich die „wahren“ Konzepte im Modell gefunden haben.

Mit der Anwendung von Gemma Scope können wir hoffentlich einen wichtigen Schritt in Richtung besserer Interpretierbarkeit und Sicherheit von KI machen. Es wird uns helfen, die internen Arbeitsmechanismen von Sprachmodellen besser zu verstehen und die Transparenz und Zuverlässigkeit der Modelle zu verbessern.

论文地址: https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

在线体验: https://www.neuronpedia.org/gemma-scope#main