Der Erfolg großer Sprachmodelle ist zu einem großen Teil auf das Scaling Law zurückzuführen. Forscher untersuchten das Scaling Law des Transferlernens und analysierten zwei Kennzahlen: den BLEU-Score und die Kreuzentropie im Downstream-Bereich. Sie erforschten die Beziehung zwischen der Größe des Pretraining-Datensatzes und der Leistung der Downstream-Aufgabe nach dem Feintuning. Ist die Kreuzentropie-Verlustfunktion immer ein guter Indikator? Der BLEU-Score nähert sich eher einem Potenzgesetz an. Die Forscher geben zwei Richtlinien zur Bewertung des Nutzens von Pretraining-Datensätzen für die jeweilige Downstream-Aufgabe. Die Ergebnisse zeigen, dass Pretraining den BLEU-Score kaum verbessert. Das Scaling Law für den BLEU-Score unterscheidet sich von der Kreuzentropie und der Perplexität, die einem Potenzgesetz folgen. Die Korrelation zwischen Kreuzentropie und BLEU-Score ist nicht besonders gut. Die Richtlinien zur Bewertung von Pretraining-Daten bieten eine Methode zur Beurteilung des Nutzens für Downstream-Aufgaben. Der Einfluss des Pretraining-Datensatzes auf die Aufgabenleistung hängt vom Grad der Übereinstimmung ab. Zu große Pretraining-Datensätze führen möglicherweise nicht zu zusätzlichen Verbesserungen. Das Scaling Law kann zur Vorhersage von Verbesserungen bei Downstream-Aufgaben verwendet werden. Ob sich das Scaling Law auf den BLEU-Score anwenden lässt, zeigt den Grad der Übereinstimmung zwischen den Pretraining-Daten und der spezifischen Übersetzungsaufgabe an.