Kürzlich haben sich große Sprachmodelle (LLMs) rasant entwickelt, wobei Transformer-Modelle eine entscheidende Rolle spielen. Der Kern von Transformer ist der Aufmerksamkeitsmechanismus, der wie ein Informationsfilter funktioniert und das Modell auf die wichtigsten Teile eines Satzes konzentriert. Aber selbst leistungsstarke Transformer können durch irrelevante Informationen gestört werden, ähnlich wie man in einer Bibliothek nach einem Buch sucht und von einem Haufen irrelevanter Bücher überfordert wird, was die Effizienz natürlich beeinträchtigt.

Diese durch den Aufmerksamkeitsmechanismus entstehenden irrelevanten Informationen werden in der Fachliteratur als Aufmerksamkeitsrauschen bezeichnet. Stellen Sie sich vor, Sie möchten eine wichtige Information in einem Dokument finden, aber die Aufmerksamkeit des Transformer-Modells verteilt sich auf verschiedene irrelevante Stellen, wie bei einem Kurzsichtigen, der den Schwerpunkt nicht erkennen kann.

image.png

Um dieses Problem zu lösen, wird in dieser Arbeit der Differential Transformer (DIFF Transformer) vorgestellt. Der Name klingt hochtrabend, aber das Prinzip ist eigentlich ganz einfach: Ähnlich wie bei einem Noise-Cancelling-Kopfhörer wird das Rauschen durch die Differenz zweier Signale eliminiert.

Der Kern des Differential Transformer ist der differentielle Aufmerksamkeitsmechanismus. Er teilt die Query- und Key-Vektoren in zwei Gruppen auf, berechnet separat zwei Aufmerksamkeitskarten und subtrahiert diese beiden Karten, um die endgültige Aufmerksamkeitsbewertung zu erhalten. Dieser Vorgang ähnelt dem Fotografieren eines Objekts mit zwei Kameras und dem anschließenden Überlagern der beiden Fotos, wobei die Unterschiede hervorgehoben werden.

image.png

Auf diese Weise kann der Differential Transformer das Aufmerksamkeitsrauschen effektiv eliminieren und das Modell auf wichtige Informationen konzentrieren. So wie man mit einem Noise-Cancelling-Kopfhörer Umgebungsgeräusche ausblendet und das gewünschte Geräusch klarer hören kann.

Die Arbeit beschreibt eine Reihe von Experimenten, die die Überlegenheit des Differential Transformer belegen. Erstens zeigt er eine hervorragende Leistung bei der Sprachmodellierung und erreicht mit nur 65 % der Modellgröße oder Trainingsdaten eines Transformers ähnliche Ergebnisse.

image.png

Zweitens ist der Differential Transformer bei der Modellierung langer Texte überlegen und kann effektiv längere Kontextinformationen nutzen.

Noch wichtiger ist, dass der Differential Transformer bei der Suche nach Schlüsselinformationen, der Reduzierung von Modellhalluzinationen und beim kontextbasierten Lernen deutliche Vorteile aufweist.

image.png

Bei der Suche nach Schlüsselinformationen ist der Differential Transformer wie eine präzise Suchmaschine, die in einer riesigen Menge an Informationen genau das findet, wonach man sucht, und dies auch bei sehr komplexen Informationen mit hoher Genauigkeit.

Bei der Reduzierung von Modellhalluzinationen kann der Differential Transformer effektiv verhindern, dass das Modell „Unsinn erzählt“, und genauere und zuverlässigere Textauszüge und Antworten generieren.

Beim kontextbasierten Lernen ist der Differential Transformer eher wie ein Musterschüler, der schnell aus wenigen Beispielen neue Kenntnisse erlernen kann, und der Lerneffekt ist stabiler als bei Transformer, der anfällig für die Reihenfolge der Beispiele ist.

Darüber hinaus kann der Differential Transformer Ausreißer in den Modell-Aktivierungswerten effektiv reduzieren, was bedeutet, dass er für die Modellquantisierung besser geeignet ist und eine Quantisierung mit niedrigerer Bitrate ermöglicht, wodurch die Effizienz des Modells verbessert wird.

Zusammenfassend lässt sich sagen, dass der Differential Transformer durch den differentiellen Aufmerksamkeitsmechanismus das Problem des Aufmerksamkeitsrauschens bei Transformer-Modellen effektiv löst und in mehreren Bereichen erhebliche Verbesserungen erzielt. Er bietet neue Ansätze für die Entwicklung großer Sprachmodelle und wird in Zukunft in vielen Bereichen eine wichtige Rolle spielen.

论文地址:https://arxiv.org/pdf/2410.05258