2024-08-07 16:35:17.AIbase.10.9k
北大・通研院、超難基基準LooGLEを発表 長文理解テストで巨大言語モデルは全滅!
長文脈理解は自然言語処理分野における重要な課題であり、特に大規模言語モデル(LLM)がコンテキストウィンドウサイズを超えるテキストを処理する場合に顕著です。この問題に対処するため、研究者らはLooGLEベンチマークテストを開発しました。これは、超長文書(平均19.3k単語、計776篇、多様な分野を網羅)を処理する際のLLMの長文脈理解能力を評価することを目的としています。LooGLEは、短依存関係と長依存関係を網羅する7つのタスクを含んでおり、様々な長さのテキストに対するモデルの理解度を評価します。テストデータは2022年以降の公開文献から取得されています。