ReFT

ReFT: Verbesserte Inferenzfähigkeit für große Sprachmodelle

Normales ProduktProduktivitätKünstliche IntelligenzInferenz
ReFT ist eine einfache und effektive Methode zur Verbesserung der Inferenzfähigkeit großer Sprachmodelle (LLMs). Es beinhaltet zunächst ein Supervised Fine-Tuning (SFT) zur Vorabtrainierung des Modells, gefolgt von einem weiteren Feintuning mittels Online-Verstärkungslernen, speziell dem im Artikel beschriebenen PPO-Algorithmus. Durch die automatische Stichprobennahme zahlreicher Inferenzpfade für eine gegebene Frage und die Ableitung von Belohnungen aus den korrekten Antworten übertrifft ReFT SFT deutlich. Die Leistung von ReFT kann durch die Kombination mit Inferenzzeitstrategien wie Mehrheitsentscheidungen und Re-Ranking weiter verbessert werden. Bemerkenswert ist, dass ReFT durch das Lernen derselben Trainingsfragen wie SFT verbessert wird, ohne zusätzliche oder erweiterte Trainingsdaten zu benötigen. Dies deutet auf eine höhere Generalisierungsfähigkeit von ReFT hin.
Website öffnen

ReFT Neueste Verkehrssituation

Monatliche Gesamtbesuche

29742941

Absprungrate

44.20%

Durchschnittliche Seiten pro Besuch

5.9

Durchschnittliche Besuchsdauer

00:04:44

ReFT Besuchstrend

ReFT Geografische Verteilung der Besuche

ReFT Traffic-Quellen

ReFT Alternativen