2025-03-31 10:42:31.AIbase.16.7k
研究:RAGシステムにおける文書数と大規模言語モデル性能の関係
エルサレム・ヘブライ大学のある研究チームは最近、検索拡張生成(RAG)システムにおいて、総テキスト長が一定であっても、処理する文書の数が大規模言語モデルの性能に大きな影響を与えることを発見しました。研究チームはMuSiQue検証データセットの2,417個の質問を用いて実験を行い、各質問には20個のWikipediaの段落が関連付けられています。そのうち2~4段落は関連する回答情報を含み、残りの段落はノイズとして扱われます。文書数の影響を調べるため、チームは複数のデータ区画を作成し、文書数を20個から段階的に減らしていきました。