Microsoft a publié en open source sur son site web GraphRAG, un système RAG (Retrieval Augmented Generation) basé sur un graphe. Ce système améliore les capacités de recherche, de question-réponse, de résumé et de raisonnement des grands modèles en construisant un graphe de connaissances d'entités. Il est particulièrement performant pour le traitement de jeux de données à grande échelle.

image.png

Accès au projet : https://top.aibase.com/tool/graphrag

Les systèmes RAG traditionnels, lorsqu'ils traitent des sources de données externes, dépendent excessivement de la recherche de fragments de texte locaux et ne peuvent pas saisir la vue d'ensemble de l'ensemble des données. GraphRAG, quant à lui, construit un graphe de connaissances d'entités pour aider les grands modèles à mieux saisir les liens et les interactions complexes dans le texte, réalisant ainsi une capacité de recherche globale.

GraphRAG repose sur deux étapes principales : la construction d'un graphe de connaissances d'entités et la génération de résumés de communauté. Grâce à ces résumés, GraphRAG peut extraire des informations pertinentes de l'ensemble des données et générer des réponses plus complètes et précises. De plus, GraphRAG a une faible demande en jetons, ce qui permet aux développeurs de réaliser des économies importantes.

Microsoft a mené des tests complets de GraphRAG sur un jeu de données de 1 million de jetons et d'une structure extrêmement complexe. Les résultats montrent que GraphRAG surpasse des méthodes comme Naive RAG en termes de exhaustivité et de diversité, et affiche des performances exceptionnelles sur des jeux de données de transcriptions de podcasts et d'articles de presse, se positionnant comme l'une des meilleures méthodes RAG actuelles.

Points clés :

- 💡 GraphRAG améliore les capacités de recherche, de question-réponse, de résumé et de raisonnement des grands modèles en construisant un graphe de connaissances d'entités. Il est particulièrement efficace pour traiter les jeux de données à grande échelle.

- 💡 GraphRAG repose sur deux étapes principales : la construction d'un graphe de connaissances d'entités et la génération de résumés de communauté. Ces résumés permettent d'extraire les informations pertinentes du jeu de données et de générer des réponses plus complètes et précises.

- 💡 GraphRAG a une faible demande en jetons, ce qui permet aux développeurs de réduire leurs coûts. Ses excellentes performances lors de tests complets en font l'une des meilleures méthodes RAG actuelles.