Investigadores de la Universidad Hebrea de Jerusalén descubrieron recientemente que, en los sistemas de generación con recuperación mejorada (RAG), la cantidad de documentos procesados influye significativamente en el rendimiento del modelo de lenguaje, incluso si la longitud total del texto permanece constante.
El equipo de investigación realizó experimentos utilizando 2.417 preguntas del conjunto de datos de validación MuSiQue, cada una vinculada a 20 fragmentos de Wikipedia. De estos, dos a cuatro contenían información relevante para la respuesta, mientras que el resto servían como distractores. Para estudiar el impacto del número de documentos, se crearon varias particiones de datos, reduciendo gradualmente la cantidad de documentos de 20 a un mínimo de 2-4 que contenían la información relevante. Para mantener constante el número total de tokens, los investigadores extendieron los documentos retenidos con texto del artículo original de Wikipedia.
Los resultados mostraron que, en la mayoría de los casos, reducir el número de documentos mejoró el rendimiento del modelo de lenguaje en aproximadamente un 10%. Se probaron varios modelos de código abierto, incluyendo Llama-3.1, Qwen2 y Gemma2. Cabe destacar que el modelo Qwen2 mostró una excepción, manteniendo un rendimiento relativamente estable a pesar de los cambios en la cantidad de documentos, mientras que el rendimiento de Llama-3.1 y Gemma-2 disminuyó notablemente al aumentar el número de documentos.
Cuando solo se proporcionaron los documentos con información de apoyo, el rendimiento de todos los modelos mejoró significativamente. Esto indica que los documentos similares pero irrelevantes, comunes en los sistemas RAG, pueden confundir al modelo y disminuir su rendimiento. Curiosamente, los modelos tuvieron un mejor rendimiento al procesar documentos aleatorios claramente irrelevantes, lo que sugiere que pueden identificar y filtrar más fácilmente el contenido claramente no relacionado.
Los investigadores destacaron la necesidad de equilibrar la relevancia y la diversidad al diseñar sistemas de recuperación para reducir los conflictos de información. También reconocieron algunas limitaciones del estudio, incluyendo la falta de análisis del impacto de los cambios en las indicaciones y el orden de los datos. El equipo ha publicado públicamente el conjunto de datos para fomentar futuras investigaciones en este campo.