最近、超長コンテキストウィンドウを持つ大規模言語モデル(LLM)が話題となっています。これらのモデルは、数十万、場合によっては数百万ものトークンを1つのプロンプトで処理でき、開発者にとって多くの新たな可能性を開きます。しかし、これらの長コンテキストLLMは、受信した大量の情報をどの程度うまく理解し、活用できるのでしょうか?

この問題に取り組むため、Google DeepMindの研究者たちは、長コンテキスト推論能力を評価することを目的とした、Michelangeloという新しいベンチマークを発表しました。

研究結果によると、現在の最先端モデルは大量のコンテキストデータから情報を抽出する上で一定の進歩を遂げていますが、推論とデータ構造の理解が必要なタスクでは依然として困難を抱えています。

長コンテキストウィンドウを持つLLMが登場するにつれて、研究者たちは、これらのモデルの能力を評価するための新しいベンチマークが必要であることに気づき始めました。既存の評価は、大量のコンテキストの中から特定の情報を探す「干し草の山から針を見つける」ような情報検索タスクに集中していました。しかし、単純な検索は、モデルが全体のコンテキストを理解していることと同義ではありません。

これらの問題に対処するため、Michelangeloは、複雑なタスクを設定し、モデルが長いテキストを処理する際に、より深い推論と統合を行うことを要求する、全く新しい評価方法を提案しています。例えば、この評価フレームワークには、プログラミングと自然言語に関連する複数のタスクが含まれており、これらはモデルの記憶能力だけでなく、情報への理解と処理の深さを重視しています。

Michelangeloの評価タスクでは、モデルは「潜在リスト」「複数ラウンドの共参照解消」、およびその他の様々なアプリケーションシナリオという3つの基本的な長文書統合タスクを解決する必要があります。これらのタスクは、モデルの長文書におけるパフォーマンスを評価するだけでなく、推論と統合における欠点を明らかにするのに役立ちます。

最初のタスクは「潜在リスト」です。モデルは、Pythonリストに対する一連の操作を処理し、無関係なステートメントや冗長なステートメントをフィルタリングして、リストの最終状態を特定する必要があります。

2つ目のタスクは「複数ラウンドの照合解決」です。モデルは、長い会話の中で会話構造を理解し、参照の問題を解決する必要があります。

3つ目のタスクは「分かりません」です。モデルは、複数の選択肢からなる問題に答える際に、コンテキストに答えが含まれているかどうかを判断し、「分かりません」と正確に答えることができる必要があります。

研究者たちは、Michelangeloを用いて、Geminiの異なるバージョン、GPT-4、Claudeなど、10個の最先端LLMを評価しました。彼らは、最大100万トークンのコンテキストでモデルをテストしました。GeminiモデルはMRCRで最高の性能を示し、GPTモデルは潜在リストで優れた性能を示し、Claude3.5SonnetはIDKで最高点を獲得しました。

image.png

研究者たちは、これらのモデルは長コンテキストの処理においてパフォーマンスが異なるものの、より複雑な推論タスクに直面した場合、全体的なパフォーマンスが大幅に低下することを発見しました。

これは、超長コンテキストウィンドウを持っている場合でも、現在のLLMの推論能力はまだ向上させる必要があることを意味します。

研究者たちは、Michelangeloの評価プロジェクトを継続的に拡張し、他の研究者が自分のモデルをテストできるように、直接公開することを計画しています。

論文へのリンク:https://arxiv.org/abs/2409.12640

要点:

🔍 長コンテキストLLMのための新しいベンチマークMichelangeloは、モデルの推論能力を評価することを目的としています。

🧩 研究によると、既存のモデルは複雑な推論タスクを処理する際に、パフォーマンスが大幅に低下しています。

📈 研究者たちは、評価プロジェクトを拡張し、モデルの推論能力の更なる研究を促進することを計画しています。