微软在官网开源了基于图的 RAG(检索增强生成)——GraphRAG。该系统通过构建实体知识图谱来增强大模型的搜索、问答、摘要、推理等能力,特别擅长处理大规模数据集。

image.png

项目入口:https://top.aibase.com/tool/graphrag

传统的 RAG 系统在处理外部数据源时,过度依赖局部文本片段的检索,无法捕捉到整个数据集的全貌。而 GraphRAG 则通过构建实体知识图谱,帮助大模型更好地捕捉文本中的复杂联系和交互,从而实现了全局检索能力。

GraphRAG 的核心包括两个步骤:构建实体知识图谱和生成社区摘要。通过社区摘要,GraphRAG 能够从整个数据集中提取相关信息,生成更全面和准确的答案。此外,GraphRAG 对 tokens 的需求很低,也就是说可以帮助开发者节省大量成本。

微软在一个100万 tokens、超复杂结构的数据集上,对 GraphRAG 进行了综合测试,结果显示 GraphRAG 在全面性和多样性测试上,超越了 Naive RAG 等方法,且在播客转录和新闻文章数据集上都显示出了超高的水准,是目前最佳的 RAG 方法之一。

划重点:

- 💡 GraphRAG 通过构建实体知识图谱来增强大模型的搜索、问答、摘要、推理等能力,特别擅长处理大规模数据集。

- 💡 GraphRAG 的核心包括构建实体知识图谱和生成社区摘要两个步骤,通过社区摘要提取数据集中相关信息,生成更全面和准确的答案。

- 💡 GraphRAG 对 tokens 的需求很低,能够帮助开发者节省成本。在综合测试中表现优异,是目前最佳的 RAG 方法之一。