Forscher der Hebräischen Universität Jerusalem haben kürzlich entdeckt, dass im Retrieval Augmented Generation (RAG)-System die Anzahl der verarbeiteten Dokumente die Leistung des Sprachmodells deutlich beeinflusst, selbst wenn die Gesamttextlänge gleich bleibt.
Das Forschungsteam führte Experimente mit 2.417 Fragen aus dem MuSiQue-Validierungsdatensatz durch, wobei jede Frage mit 20 Wikipedia-Abschnitten verknüpft war. Zwei bis vier Abschnitte enthielten relevante Antwortinformationen, die restlichen Abschnitte dienten als Störfaktoren. Um den Einfluss der Dokumentenanzahl zu untersuchen, erstellte das Team mehrere Datenpartitionen, wobei die Dokumentenanzahl schrittweise von 20 auf minimal 2-4 Dokumente reduziert wurde, die die relevanten Informationen enthielten. Um die Gesamtzahl der Token konstant zu halten, erweiterten die Forscher die beibehaltenen Dokumente mit Text aus den ursprünglichen Wikipedia-Artikeln.
Die Ergebnisse zeigten, dass in den meisten Fällen die Reduzierung der Dokumentenanzahl die Leistung des Sprachmodells um etwa 10 % verbesserte. Getestet wurden verschiedene Open-Source-Modelle, darunter Llama-3.1, Qwen2 und Gemma2. Bemerkenswert ist, dass das Qwen2-Modell eine Ausnahme darstellte und bei veränderter Dokumentenanzahl eine relativ stabile Leistung aufwies, während die Leistung von Llama-3.1 und Gemma-2 mit zunehmender Dokumentenanzahl deutlich abnahm.
Wenn nur die Dokumente mit unterstützenden Informationen bereitgestellt wurden, verbesserte sich die Leistung aller Modelle deutlich. Dies deutet darauf hin, dass ähnliche, aber nicht relevante Dokumente, die häufig in RAG-Systemen vorkommen, das Modell verwirren und die Leistung beeinträchtigen können. Interessanterweise schnitten die Modelle bei der Verarbeitung offensichtlich irrelevanter, zufälliger Dokumente sogar besser ab, was darauf hindeutet, dass sie offensichtlich irrelevante Inhalte leichter erkennen und herausfiltern können.
Die Forscher betonen, dass beim Entwurf von Retrieval-Systemen ein Gleichgewicht zwischen Relevanz und Diversität gefunden werden muss, um Informationskonflikte zu reduzieren. Sie räumen auch einige Einschränkungen der Studie ein, darunter das Fehlen einer Analyse der Auswirkungen von Prompt-Änderungen und der Datenreihenfolge. Das Team hat den Datensatz öffentlich zugänglich gemacht, um weitere Forschung auf diesem Gebiet zu fördern.