ReFT
ReFT: Verbesserte Inferenzfähigkeit für große Sprachmodelle
Normales ProduktProduktivitätKünstliche IntelligenzInferenz
ReFT ist eine einfache und effektive Methode zur Verbesserung der Inferenzfähigkeit großer Sprachmodelle (LLMs). Es beinhaltet zunächst ein Supervised Fine-Tuning (SFT) zur Vorabtrainierung des Modells, gefolgt von einem weiteren Feintuning mittels Online-Verstärkungslernen, speziell dem im Artikel beschriebenen PPO-Algorithmus. Durch die automatische Stichprobennahme zahlreicher Inferenzpfade für eine gegebene Frage und die Ableitung von Belohnungen aus den korrekten Antworten übertrifft ReFT SFT deutlich. Die Leistung von ReFT kann durch die Kombination mit Inferenzzeitstrategien wie Mehrheitsentscheidungen und Re-Ranking weiter verbessert werden. Bemerkenswert ist, dass ReFT durch das Lernen derselben Trainingsfragen wie SFT verbessert wird, ohne zusätzliche oder erweiterte Trainingsdaten zu benötigen. Dies deutet auf eine höhere Generalisierungsfähigkeit von ReFT hin.
ReFT Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44