En el campo de la inteligencia artificial, obtener información precisa de bases de datos de conocimiento ha sido un gran desafío. Recientemente, la empresa de inteligencia artificial Anthropic anunció un nuevo método llamado "recuperación contextual", diseñado para mejorar la precisión de la recuperación de conocimiento. Este método agrega más información contextual durante la recuperación, ayudando a los sistemas de IA a proporcionar respuestas más precisas.
Los sistemas de generación mejorada por recuperación (RAG) existentes suelen dividir los documentos en pequeños fragmentos para indexarlos, lo que puede provocar que se omita información contextual importante. La solución de Anthropic consiste en añadir un breve resumen del documento antes de cada fragmento, generalmente de menos de 100 palabras. Por ejemplo, un fragmento de texto original como "Los ingresos de la empresa aumentaron un 3% con respecto al trimestre anterior" se convierte, después del procesamiento contextual, en: "Este fragmento proviene del documento SEC del segundo trimestre de 2023 de la empresa ACME; los ingresos del trimestre anterior fueron de 314 millones de dólares, y los ingresos de la empresa aumentaron un 3% con respecto al trimestre anterior". De esta manera, Anthropic afirma que su nuevo método puede reducir la tasa de error en la recuperación de información hasta en un 49%. Si se combina con la reordenación de los resultados, la mejora de la precisión puede llegar incluso al 67%.
Más interesante aún, una investigación de la Universidad de Cornell también apoya este método de recuperación contextual. Los investigadores propusieron una técnica similar, llamada "incorporación de documentos contextuales" (CDE). Su método reorganiza los datos de entrenamiento para que cada lote incluya documentos similares pero difíciles de distinguir, lo que obliga al modelo a aprender diferencias más sutiles. Además, los investigadores desarrollaron un codificador de dos etapas que integra directamente la información de los documentos adyacentes en las incorporaciones, permitiendo que el modelo tenga en cuenta la frecuencia relativa de las palabras y otras pistas contextuales.
En las pruebas del "Benchmark de incrustaciones de texto masivo" (MTEB), el modelo CDE obtuvo los mejores resultados en su categoría de tamaño. Los experimentos también mostraron que el CDE tiene una ventaja particular en conjuntos de datos específicos pequeños de dominios como finanzas o medicina, y ofrece un rendimiento excelente en tareas como clasificación, agrupación y similitud semántica. Sin embargo, los investigadores señalan que aún no está claro el impacto del CDE en bases de conocimiento de gran escala con miles de millones de documentos, y que aún queda mucho por investigar sobre el tamaño y la selección óptimos del contexto.
Puntos clave:
🌟 El método de "recuperación contextual" de Anthropic puede reducir la tasa de error en la recuperación de información hasta en un 49%, y se puede combinar con otras técnicas para mejorar aún más la precisión.
📊 El método de "incorporación de documentos contextuales" de la Universidad de Cornell muestra una gran ventaja en dominios específicos, mejorando eficazmente las tareas de clasificación y agrupación.
🔍 Se necesita más investigación para determinar cómo aplicar estos métodos a bases de conocimiento a gran escala y encontrar las mejores estrategias de procesamiento contextual.