Microsoft ha lanzado en código abierto en su sitio web GraphRAG, un sistema RAG (Recuperación Aumentada de Generación) basado en grafos. Este sistema mejora las capacidades de búsqueda, respuesta a preguntas, resumen e inferencia de los grandes modelos lingüísticos mediante la construcción de un grafo de conocimiento de entidades, siendo especialmente eficaz en el manejo de conjuntos de datos a gran escala.
Enlace al proyecto: https://top.aibase.com/tool/graphrag
Los sistemas RAG tradicionales, al procesar fuentes de datos externas, dependen excesivamente de la recuperación de fragmentos de texto locales, sin poder captar la imagen completa del conjunto de datos. GraphRAG, en cambio, construye un grafo de conocimiento de entidades, lo que ayuda a los grandes modelos lingüísticos a captar mejor las complejas relaciones e interacciones del texto, logrando así una capacidad de recuperación global.
El núcleo de GraphRAG consta de dos pasos: la construcción de un grafo de conocimiento de entidades y la generación de un resumen de la comunidad. Mediante este resumen, GraphRAG puede extraer información relevante de todo el conjunto de datos, generando respuestas más completas y precisas. Además, GraphRAG tiene una baja demanda de tokens, lo que permite a los desarrolladores ahorrar costes.
Microsoft ha realizado pruebas exhaustivas de GraphRAG en un conjunto de datos de 1 millón de tokens con una estructura extremadamente compleja. Los resultados muestran que GraphRAG supera a métodos como Naive RAG en pruebas de exhaustividad y diversidad, demostrando un rendimiento excepcional en conjuntos de datos de transcripciones de podcasts y artículos de noticias, posicionándose como uno de los mejores métodos RAG actuales.
Puntos clave:
- 💡 GraphRAG mejora las capacidades de búsqueda, respuesta a preguntas, resumen e inferencia de los grandes modelos lingüísticos mediante la construcción de un grafo de conocimiento de entidades, siendo especialmente eficaz en el manejo de conjuntos de datos a gran escala.
- 💡 El núcleo de GraphRAG consta de dos pasos: la construcción de un grafo de conocimiento de entidades y la generación de un resumen de la comunidad, extrayendo información relevante del conjunto de datos para generar respuestas más completas y precisas.
- 💡 GraphRAG tiene una baja demanda de tokens, lo que permite a los desarrolladores ahorrar costes. Su rendimiento en las pruebas exhaustivas ha sido excelente, posicionándolo como uno de los mejores métodos RAG actuales.