Metas FAIR-Team hat kürzlich ein neues Transformer-Modell namens Dualformer vorgestellt. Dieses Modell ahmt das duale kognitive System des Menschen nach und integriert nahtlos schnelle und langsame Inferenzmuster. Dadurch erzielt es einen deutlichen Durchbruch in Bezug auf Inferenzfähigkeit und Rechenleistung.

Der menschliche Denkprozess wird gemeinhin von zwei Systemen gesteuert: System 1 ist schnell und intuitiv, System 2 ist langsamer, aber logischer.

Traditionelle Transformer-Modelle simulieren in der Regel nur eines der beiden Systeme. Dies führt dazu, dass Modelle entweder schnell, aber inferenzschwach sind, oder inferenzstark, aber langsam und rechenintensiv.

image.png

Die Innovation von Dualformer liegt in seiner Trainingsmethode. Die Forscher trainierten das Modell mit zufälligen Inferenzpfaden. Dabei wurden während des Trainings zufällig verschiedene Teile der Pfade ausgelassen – ähnlich der Analyse menschlicher Denkprozesse und der Schaffung von Abkürzungen. Diese Trainingsstrategie ermöglicht es Dualformer, im Inferenzprozess flexibel zwischen verschiedenen Modi zu wechseln:

Schneller Modus: Dualformer gibt nur die endgültige Lösung aus, extrem schnell.

Langsamer Modus: Dualformer gibt die vollständige Inferenzkette und die endgültige Lösung aus, mit stärkerer Inferenzfähigkeit.

Automatischer Modus: Dualformer wählt je nach Komplexität der Aufgabe automatisch den passenden Modus.

image.png

Die Ergebnisse zeigen, dass Dualformer bei Aufgaben wie Labyrinthnavigation und mathematischer Problemlösung hervorragende Leistungen erbringt. Im langsamen Modus löst Dualformer Labyrinthnavigationsaufgaben mit 30x30 Feldern mit einer Erfolgsrate von 97,6 % und übertrifft damit das nur mit vollständigen Inferenzpfaden trainierte Searchformer-Modell. Gleichzeitig reduziert sich die Anzahl der Inferenzschritte um 45,5 %.

image.png

image.png

Im schnellen Modus erreicht Dualformer eine Erfolgsrate von 80 %, deutlich höher als das nur mit endgültigen Lösungen trainierte Solution-Only-Modell. Im automatischen Modus kann Dualformer bei gleichbleibend hoher Erfolgsrate die Anzahl der Inferenzschritte deutlich reduzieren.

image.png

image.png

Der Erfolg von Dualformer zeigt, dass die Anwendung menschlicher Erkenntnistheorien auf das Design von KI-Modellen die Leistung der Modelle effektiv steigern kann. Dieses Modell, das schnelles und langsames Denken kombiniert, bietet neue Ansätze für den Aufbau leistungsfähigerer und effizienterer KI-Systeme.

论文地址:https://arxiv.org/pdf/2410.09918