自然言語処理の分野において、ロングコンテキスト理解は長年の課題でした。大規模言語モデル(LLM)は様々な言語タスクで優れた性能を示していますが、コンテキストウィンドウサイズを超えるテキストを処理する場合、しばしば限界に直面します。この制限を克服するため、研究者らはLLMの長文理解能力の向上に努めており、これは学術研究だけでなく、特定分野の知識理解、長文会話生成、長編ストーリーやコード生成などの現実世界のアプリケーションにおいても非常に重要です。
本研究では、LLMのロングコンテキスト理解能力を評価するために設計された新しいベンチマーク、LooGLE(Long Context Generic Language Evaluation)を提案します。このベンチマークは、2022年以降の超長文書776本(平均19.3k単語)と、学術、歴史、スポーツ、政治、芸術、イベント、エンターテイメントなど複数の分野を網羅した6448個のテストインスタンスを含んでいます。
LooGLEの特徴
超長の実データ文書:LooGLEの文書の長さは、LLMのコンテキストウィンドウサイズをはるかに超えており、モデルはより長いテキストを記憶し理解する必要があります。
手動設計の長短依存タスク:ベンチマークには、LLMの長短依存関係の理解能力を評価するための、短依存タスクと長依存タスクを含む7つの主要なタスクが含まれています。
比較的新しい文書:すべての文書は2022年以降に公開されたものであり、これは、ほとんどの最新のLLMが事前学習中にこれらの文書に触れていないことを保証し、それらのコンテキスト学習能力をより正確に評価することを可能にします。
分野横断的な汎用データ:ベンチマークデータは、arXiv論文、Wikipedia記事、映画やテレビドラマの脚本など、一般的なオープンソース文書から収集されています。
研究者らは、8種類の最先端LLMを総合的に評価し、以下の重要な発見を明らかにしました。
商用モデルはオープンソースモデルよりも性能が優れていました。
LLMは短依存タスクでは優れた性能を示しましたが、より複雑な長依存タスクでは課題がありました。
コンテキスト学習や思考連鎖に基づく手法は、ロングコンテキスト理解において限定的な改善しか提供しませんでした。
検索ベースの手法は、短い質問への回答において顕著な優位性を示しましたが、最適化されたTransformerアーキテクチャや位置エンコーディングによるコンテキストウィンドウ長の拡張戦略は、ロングコンテキスト理解への影響が限定的でした。
LooGLEベンチマークは、ロングコンテキストLLMを評価するための体系的で包括的な評価方法を提供するだけでなく、「真のロングコンテキスト理解」能力を持つモデルの開発のための指針も提供します。すべての評価コードはGitHubで公開されており、研究コミュニティが参照および使用できます。