Eine aktuelle Studie der Eidgenössischen Technischen Hochschule Lausanne (EPFL) vergleicht zwei gängige Methoden zum adaptiven Training großer Sprachmodelle (LLM): In-Context Learning (ICL) und Instruction Fine-Tuning (IFT). Die Forscher verwendeten den MT-Bench-Benchmark, um die Fähigkeit der Modelle zur Befolgung von Anweisungen zu bewerten und stellten fest, dass beide Methoden je nach Kontext unterschiedliche Stärken aufweisen.
Die Studie ergab, dass bei einer geringen Anzahl von Trainingsbeispielen (z. B. nicht mehr als 50) ICL und IFT sehr ähnliche Ergebnisse liefern. Dies deutet darauf hin, dass ICL bei begrenzten Daten als Alternative zu IFT dienen kann.
Mit zunehmender Komplexität der Aufgabe, beispielsweise in mehrstufigen Dialogen, zeigt IFT jedoch einen klaren Vorteil. Die Forscher vermuten, dass ICL-Modelle dazu neigen, sich zu stark an den Stil einzelner Beispiele anzupassen, was zu einer schlechten Leistung bei komplexen Dialogen führt – teilweise sogar schlechter als bei Basismodellen.
Die Studie untersuchte auch die URIAL-Methode, die nur drei Beispiele und Regeln zur Anweisungsbefolgung verwendet, um ein Basis-Sprachmodell zu trainieren. Obwohl URIAL einige Erfolge erzielte, blieb es im Vergleich zu IFT-trainierten Modellen hinterher. Die EPFL-Forscher verbesserten die Leistung von URIAL durch eine verbesserte Auswahlstrategie für Beispiele und näherten sich damit der Leistung von feinabgestimmten Modellen an. Dies unterstreicht die Bedeutung hochwertiger Trainingsdaten für ICL, IFT und das Training von Basismodellen.
Darüber hinaus ergab die Studie, dass Dekodierparameter einen erheblichen Einfluss auf die Modellleistung haben. Diese Parameter bestimmen, wie das Modell Text generiert und sind sowohl für Basis-LLMs als auch für mit URIAL trainierte Modelle entscheidend.
Die Forscher stellten fest, dass auch Basismodelle Anweisungen bis zu einem gewissen Grad befolgen können, wenn die richtigen Dekodierparameter verwendet werden.
Die Bedeutung dieser Studie liegt darin, dass sie zeigt, wie In-Context Learning Sprachmodelle schnell und effektiv anpassen kann, insbesondere bei begrenzten Trainingsdaten. Für komplexe Aufgaben wie mehrstufige Dialoge ist Instruction Fine-Tuning jedoch nach wie vor die bessere Wahl.
Mit zunehmender Größe des Datensatzes verbessert sich die Leistung von IFT kontinuierlich, während die Leistung von ICL nach Erreichen einer bestimmten Anzahl von Beispielen stagniert. Die Forscher betonen, dass die Wahl zwischen ICL und IFT von verschiedenen Faktoren abhängt, darunter verfügbare Ressourcen, Datenmenge und die spezifischen Anforderungen der Anwendung. Unabhängig von der gewählten Methode sind hochwertige Trainingsdaten unerlässlich.