Kürzlich haben Forscher von Meta AI in Zusammenarbeit mit der University of California, Berkeley, und der New York University eine Methode namens Thought Preference Optimization (TPO) vorgestellt, die darauf abzielt, die Antwortqualität von durch Anweisungen feinabgestimmten großen Sprachmodellen (LLMs) zu verbessern.

Im Gegensatz zu traditionellen Modellen, die sich nur auf die endgültige Antwort konzentrieren, ermöglicht TPO dem Modell, intern zu „denken“, bevor es eine Antwort generiert, was zu genaueren und kohärenteren Antworten führt.

image.png

Diese neue Technik kombiniert eine verbesserte Methode des Chain-of-Thought (CoT)-Reasonings. Während des Trainings wird das Modell dazu angeregt, vor der Beantwortung zunächst „nachzudenken“, um einen systematischeren internen Denkprozess aufzubauen. Bisherige direkte CoT-Anweisungen führten manchmal zu geringerer Genauigkeit und erschwerten den Trainingsprozess aufgrund fehlender klarer Denkschritte. TPO umgeht diese Einschränkungen, indem es dem Modell ermöglicht, seinen Denkprozess zu optimieren und zu vereinfachen, wobei die Zwischenschritte für den Benutzer nicht sichtbar sind.

Der TPO-Prozess beginnt damit, dass das große Sprachmodell mehrere Denkprozesse generiert. Bevor die endgültige Antwort formuliert wird, werden diese Ausgaben beprobt und bewertet. Ein Bewertungsmodell bewertet die Ausgaben und bestimmt die besten und schlechtesten Antworten. Durch die Verwendung dieser Ausgaben als Paare aus akzeptierten und abgelehnten Antworten für die direkte Präferenzoptimierung (Direct Preference Optimization, DPO) verstärkt diese iterative Trainingsmethode die Fähigkeit des Modells, relevantere und qualitativ hochwertigere Antworten zu generieren, was zu einer Verbesserung der Gesamtleistung führt.

Bei dieser Methode werden die Trainingsaufforderungen so angepasst, dass das Modell vor der Beantwortung intern „denkt“. Die endgültige, bewertete Antwort wird von einem auf LLMs basierenden Bewertungsmodell bewertet. Dadurch kann das Modell seine Qualität verbessern, ohne die impliziten Denkschritte zu berücksichtigen und sich allein auf die Effektivität der Antwort zu konzentrieren. Darüber hinaus nutzt TPO die direkte Präferenzoptimierung, um Paare aus akzeptierten und abgelehnten Antworten mit impliziten Denkprozessen zu erstellen, die durch mehrere Trainingszyklen weiter verfeinert werden.

image.png

Die Ergebnisse zeigen, dass TPO in mehreren Benchmark-Tests hervorragende Leistungen erbringt und verschiedene bestehende Modelle übertrifft. Diese Methode eignet sich nicht nur für logische und mathematische Aufgaben, sondern zeigt auch Potenzial in kreativen Bereichen wie Marketing und gesundheitsbezogenen Aufgaben, die Anweisungen befolgen.

Artikel:https://arxiv.org/pdf/2410.10630

Wichtigste Punkte:

🧠 TPO verbessert die Denkfähigkeit großer Sprachmodelle, bevor sie eine Antwort generieren, um genauere Antworten zu gewährleisten.

📈 Durch verbessertes Chain-of-Thought-Reasoning kann das Modell seinen internen Denkprozess optimieren und vereinfachen, wodurch die Antwortqualität verbessert wird.

💡 TPO ist für verschiedene Bereiche geeignet, nicht nur für logische und mathematische Aufgaben, sondern auch für kreative und gesundheitsbezogene Bereiche.