Microsoft hat auf seiner Website GraphRAG, ein auf Graphen basierendes RAG-System (Retrieval Augmented Generation), als Open Source veröffentlicht. Dieses System erweitert die Such-, Frage-Antwort-, Zusammenfassungs- und Inferenzfähigkeiten großer Sprachmodelle durch den Aufbau eines Entitäts-Wissensgraphen und eignet sich besonders gut für die Verarbeitung großer Datensätze.
Projekt-Link: https://top.aibase.com/tool/graphrag
Traditionelle RAG-Systeme verlassen sich bei der Verarbeitung externer Datenquellen zu stark auf die Suche nach lokalen Textausschnitten und können den Gesamtüberblick über den gesamten Datensatz nicht erfassen. GraphRAG hingegen baut einen Entitäts-Wissensgraphen auf, der großen Sprachmodellen hilft, die komplexen Zusammenhänge und Interaktionen in Texten besser zu erfassen und so eine globale Suchfähigkeit ermöglicht.
GraphRAG besteht im Kern aus zwei Schritten: dem Aufbau eines Entitäts-Wissensgraphen und der Generierung von Community-Zusammenfassungen. Durch diese Zusammenfassungen kann GraphRAG relevante Informationen aus dem gesamten Datensatz extrahieren und umfassendere und genauere Antworten generieren. Darüber hinaus hat GraphRAG einen geringen Bedarf an Tokens, was Entwicklern erhebliche Kostenersparnisse ermöglicht.
Microsoft hat GraphRAG auf einem komplexen Datensatz mit 1 Million Tokens umfassend getestet. Die Ergebnisse zeigen, dass GraphRAG in Bezug auf Vollständigkeit und Vielfalt herkömmliche RAG-Methoden übertrifft und sowohl bei Podcast-Transkripten als auch bei Nachrichtenartikeln eine herausragende Leistung zeigt. Es zählt zu den derzeit besten RAG-Methoden.
Wichtigste Punkte:
- 💡 GraphRAG erweitert die Such-, Frage-Antwort-, Zusammenfassungs- und Inferenzfähigkeiten großer Sprachmodelle durch den Aufbau eines Entitäts-Wissensgraphen und ist besonders gut für die Verarbeitung großer Datensätze geeignet.
- 💡 GraphRAG besteht aus zwei Kernschritten: dem Aufbau eines Entitäts-Wissensgraphen und der Generierung von Community-Zusammenfassungen. Durch diese Zusammenfassungen werden relevante Informationen aus dem Datensatz extrahiert, um umfassendere und genauere Antworten zu generieren.
- 💡 GraphRAG hat einen geringen Token-Bedarf und hilft Entwicklern, Kosten zu sparen. In umfassenden Tests zeigte es eine hervorragende Leistung und zählt zu den derzeit besten RAG-Methoden.