北京大学の張牧涵チームは、革新的なフレームワーク「Long Input Fine-Tuning(LIFT)」を提案しました。これは、長い入力テキストをモデルパラメータに学習させることで、任意の短いコンテキストウィンドウモデルに長いテキスト処理能力を持たせるものです。この手法は従来の長テキスト処理の考え方を覆し、コンテキストウィンドウの無限拡張に焦点を当てるのではなく、長いテキストの知識をモデルパラメータに内在化します。これは、人間が作業記憶を長期記憶に変換する過程に似ています。

image.png

現在、大規模モデルが長テキスト処理において直面する主な課題は2つあります。

従来の注意機構の計算量がO(n²)であるため、長テキスト処理時の計算コストとメモリ消費が膨大になる 長いテキストに散らばる長距離依存関係をモデルが理解するのが難しい

RAGや長コンテキスト適応などの既存の解決策にはそれぞれ限界があります。

RAGは正確な検索に依存し、ノイズが混入して幻覚を引き起こしやすい 長コンテキスト適応の推論コストが高く、コンテキストウィンドウは依然として限定的である

LIFTの技術革新

LIFTフレームワークは3つの主要なコンポーネントで構成されています。

動的で効率的な長入力学習

セグメント化された言語モデリングにより、長テキストを重複するセグメントに分割します。これにより、長すぎるコンテキストによる推論コストの増加や長距離依存関係の消失を防ぎ、学習コストは長テキストの長さに比例して線形に増加します。

image.png

モデル能力のバランスを取るゲーテッドメモリアダプター

専用のGated Memory Adapterアーキテクチャを設計し、元のモデルのIn-Context Learning能力と長入力の記憶理解のバランスを動的に調整します。これにより、モデルはクエリに応じて、LIFTメモリの内容をどれだけ使用するのかを自動的に調整できます。

補助タスク学習

事前学習済みのLLMを使用して、長テキストから自動的に質問応答型の補助タスクを生成します。これにより、セグメント学習で失われた可能性のある能力を補い、モデルが長テキストの情報を使用して質問に答えることを学習するのを支援します。

image.png

実験結果

LIFTは、複数の長コンテキストベンチマークテストで顕著な向上を示しました。

LooGLE長依存質問応答:Llama38Bの正解率が15.44%から29.97%に上昇 LooGLE短依存質問応答:Gemma29Bの正解率が37.37%から50.33%に上昇 LongBenchの複数のサブタスク:Llama3はLIFTにより5つのサブタスクのうち4つで顕著な向上を示した

アブレーション実験によると、Gated Memoryアーキテクチャは、PiSSA微調整済みの元のモデルと比較して、LooGLE ShortQAデータセットにおけるGPT-4スコアを5.48%向上させました。

限界と今後の発展方向

LIFTは顕著な成果を収めていますが、いくつかの限界も存在します。

正確な情報抽出が必要な「大海撈針」タスクでは依然として効果が低い LIFTによって獲得されたパラメータ化された知識の抽出能力を最適化する必要がある 補助タスクの設計は下流のテストタスクに大きく依存しており、汎用性に欠ける メモリと元の能力のバランスをどのように取るかはいまだに研究の重点課題である

研究チームは、より広範なトレーニングデータ、より豊富なモデル、より高度な補助タスク設計、そしてより強力な計算資源によるサポートの下でのLIFTの可能性を、コミュニティと共に探求することを推奨しています。

結論

LIFTは、コンテキスト知識をパラメータ化された知識に変換する、全く新しい長テキスト処理のパラダイムを提供します。この考え方は、人間の短期記憶が長期記憶に変換される過程に似ています。長コンテキストの課題を完全に解決するにはまだ距離がありますが、LIFTは非常に可能性のある研究方向を切り開きました。

論文アドレス:https://arxiv.org/abs/2502.14644