A Microsoft lançou em código aberto em seu site o GraphRAG, um sistema RAG (Retrieval Augmented Generation) baseado em grafos. Este sistema aprimora as capacidades de busca, resposta a perguntas, resumo e raciocínio de grandes modelos de linguagem através da construção de um grafo de conhecimento de entidades, sendo especialmente eficaz no tratamento de conjuntos de dados em larga escala.

image.png

Acesso ao projeto: https://top.aibase.com/tool/graphrag

Sistemas RAG tradicionais, ao lidar com fontes de dados externas, dependem excessivamente da recuperação de fragmentos de texto locais, sem conseguir captar a visão geral de todo o conjunto de dados. O GraphRAG, por sua vez, constrói um grafo de conhecimento de entidades, ajudando os grandes modelos de linguagem a capturar melhor as conexões e interações complexas dentro do texto, alcançando assim uma capacidade de busca global.

O núcleo do GraphRAG consiste em duas etapas: construção de um grafo de conhecimento de entidades e geração de resumos de comunidade. Por meio dos resumos de comunidade, o GraphRAG consegue extrair informações relevantes de todo o conjunto de dados, gerando respostas mais completas e precisas. Além disso, o GraphRAG tem baixa demanda por tokens, o que significa economia de custos para os desenvolvedores.

A Microsoft realizou testes abrangentes do GraphRAG em um conjunto de dados de 1 milhão de tokens com estrutura extremamente complexa. Os resultados mostraram que o GraphRAG superou métodos como o Naive RAG nos testes de abrangência e diversidade, apresentando desempenho excepcional em transcrições de podcasts e conjuntos de dados de artigos de notícias, sendo considerado um dos melhores métodos RAG atualmente disponíveis.

Destaques:

- 💡 O GraphRAG aprimora as capacidades de busca, resposta a perguntas, resumo e raciocínio de grandes modelos de linguagem através da construção de um grafo de conhecimento de entidades, sendo especialmente eficaz no tratamento de conjuntos de dados em larga escala.

- 💡 O núcleo do GraphRAG consiste em duas etapas: construção de um grafo de conhecimento de entidades e geração de resumos de comunidade, que extraem informações relevantes do conjunto de dados para gerar respostas mais completas e precisas.

- 💡 O GraphRAG tem baixa demanda por tokens, reduzindo os custos para os desenvolvedores. Apresentou excelente desempenho em testes abrangentes, sendo um dos melhores métodos RAG atualmente disponíveis.