エルサレム・ヘブライ大学の研究者らは最近、検索強化生成(RAG)システムにおいて、総テキストの長さが一定であっても、処理する文書の数が言語モデルの性能に著しい影響を与えることを発見しました。
研究チームは、MuSiQue検証データセットの2,417個の質問を用いて実験を行いました。各質問には20個のウィキペディアの段落がリンクされており、そのうち2~4段落は関連する回答情報を含み、残りの段落はノイズとして機能します。文書数の影響を調べるため、チームは複数のデータ分割を作成し、文書数を20個から関連情報を含む2~4個の文書まで段階的に削減しました。総トークン数を一定に保つため、研究者らは元のウィキペディア記事のテキストで残された文書を拡張しました。
実験の結果、ほとんどの場合、文書数を減らすことで言語モデルの性能が約10%向上することが示されました。Llama-3.1、Qwen2、Gemma2を含む複数のオープンソースモデルでテストが行われました。注目すべきは、Qwen2モデルは文書数の変化に対して比較的安定した性能を維持したのに対し、Llama-3.1とGemma-2の性能は文書数が増加するにつれて顕著に低下したことです。
支持情報を含む文書のみを提供した場合、すべてのモデルの性能が大幅に向上しました。これは、RAGシステムでよく見られる、類似しているが関連性のない文書が、モデルを混乱させ、性能を低下させることを示唆しています。興味深いことに、モデルは明らかに関連性のないランダムな文書を処理する際に、より良い性能を示しました。これは、明らかに無関係なコンテンツを識別してフィルタリングするのが容易であることを示しています。
研究者らは、検索システムの設計において、情報の衝突を減らすために関連性と多様性のバランスをとる必要があることを強調しています。また、プロンプトの変化やデータの順序の影響の分析がないなど、研究にはいくつかの限界があることも認めています。この分野のさらなる研究を促進するため、チームはデータセットを公開しました。