大規模言語モデルの成功は、大きくスケーリング則の存在によるところが大きいです。研究者らは、転移学習のスケーリング則を探求し、下流BLEUスコアと下流クロスエントロピーという2つの指標を研究しました。これらは、事前学習データセットのサイズと、タスクの微調整後の下流タスクのパフォーマンスの関係性を示しています。クロスエントロピー損失は常に良い指標と言えるのでしょうか?BLEUスコアは、対数則により近い傾向を示します。研究者らは、事前学習データセットが目標とする下流タスクにどれだけの価値をもたらすかを評価するための2つのガイドラインを示しました。実験結果によると、事前学習はBLEUスコアにほとんど改善をもたらさず、BLEUスコアのスケーリング則は、べき乗則に従うスケーリング挙動を示すクロスエントロピーやパープレキシティとは異なります。クロスエントロピーとBLEUスコアの相関性は高くありません。事前学習データ評価ガイドラインは、下流タスクへの価値を評価する方法を提供します。事前学習データセットがタスクのパフォーマンスに与える影響は、整合性の度合いによって異なり、事前学習データセットが大きすぎると、追加の改善が見られない可能性があります。スケーリング則は、下流タスクのパフォーマンス改善を予測するために使用でき、BLEUスコアのスケーリング則への適合性は、事前学習データと特定の翻訳タスクの整合性の度合いを示唆しています。