2024年12月19日の発表会で、智源研究院とテンセントは、大規模言語モデル(LLM)の現実世界のロングテキストにおける多様なタスクでの深い理解力と推論能力を評価するために設計されたベンチマーク、LongBench v2を発表しました。このプラットフォームは、ロングテキストモデルの理解力と推論力の向上を促進し、現在のロングテキスト大規模言語モデルの応用における課題に対応することを目指しています。
LongBench v2の顕著な特徴としては、8k語から200万語までのより長いテキスト長に対応し、難易度が高く、人間の専門家ですら15分間の平均正解率が53.7%に過ぎない、503個の挑戦的な4択問題が含まれている点が挙げられます。さらに、このベンチマークテストは、単一文書質問応答、複数文書質問応答、ロングテキストコンテキスト学習など、6つの主要なタスクカテゴリを網羅しており、幅広い適用シナリオを確保しています。
評価の信頼性を確保するために、LongBench v2のすべての問題は、複数選択形式を採用しており、厳格な手動アノテーションと審査プロセスを経て作成されています。データ収集プロセスでは、一流大学からアノテーターを採用し、問題の質と難易度を確保しました。制御変数の導入により、LongBench v2は元のBradley-Terry統計アルゴリズムを改良し、混同行の影響を軽減することで、モデルのランキングをより科学的で正確なものにしています。
評価結果では、研究チームは10個のオープンソースLLMと6個のクローズドソースLLMをテストし、制御変数の導入後、モデルのパフォーマンスが大幅に向上したことを発見しました。特にGPT-4oモデルは、より多くの推論ステップを導入することで、複数文書質問応答やロングテキストコンテキスト学習などのタスクで優れたパフォーマンスを示し、推論能力の重要性を示しています。
LongBench v2の発表は、大規模言語モデルの評価に新たなツールを提供するだけでなく、将来の研究の方向性を示し、モデル自身の理解力と推論力の向上を強調しています。智源研究院とテンセントの協力は、AI技術分野における更なる発展の兆しであり、このベンチマークテストがロングテキストの理解と推論技術の進歩を促進することを期待しています。
ホームページ:https://longbench2.github.io
論文:https://arxiv.org/abs/2412.15204
データとコード:https://github.com/THUDM/LongBench