Im Bereich der künstlichen Intelligenz ist die präzise Informationsbeschaffung aus Wissensdatenbanken eine große Herausforderung. Kürzlich hat das KI-Unternehmen Anthropic eine neue Methode namens „Kontextuelle Suche“ vorgestellt, die die Genauigkeit der Wissensrecherche verbessern soll. Diese Methode integriert zusätzliche Kontextinformationen während der Suche, um dem KI-System präzisere Antworten zu ermöglichen.
Bestehende Retrieval-Augmented Generation (RAG)-Systeme zerlegen Dokumente üblicherweise in kleine Segmente zur Indizierung. Dabei können wichtige Kontextinformationen verloren gehen. Anthropics Lösung besteht darin, jedem Segment eine kurze Dokumentenübersicht voranzustellen, in der Regel nicht mehr als 100 Wörter. Beispielsweise wird der Textabschnitt „Der Umsatz des Unternehmens stieg im Vergleich zum Vorquartal um 3 %“ nach der Kontextverarbeitung zu: „Dieser Abschnitt stammt aus dem SEC-Bericht des Unternehmens ACME für das zweite Quartal 2023; der Umsatz des Vorquartals betrug 314 Millionen US-Dollar, der Umsatz des Unternehmens stieg im Vergleich zum Vorquartal um 3 %.“ Anthropic gibt an, dass diese Methode die Fehlerrate bei der Informationsbeschaffung um bis zu 49 % senken kann. In Kombination mit einer Neusortierung der Ergebnisse kann die Genauigkeit sogar um 67 % gesteigert werden.
Interessanterweise unterstützt auch eine Studie der Cornell University diese Methode der kontextuellen Suche. Die Forscher entwickelten eine ähnliche Technik namens „Contextual Document Embedding“ (CDE). Ihre Methode reorganisiert die Trainingsdaten, sodass jeder Batch ähnliche, aber schwer unterscheidbare Dokumente enthält, wodurch das Modell feinere Unterschiede lernt. Zusätzlich entwickelten die Forscher einen zweistufigen Encoder, der Informationen benachbarter Dokumente direkt in die Einbettungen integriert, sodass das Modell relative Wortfrequenzen und andere Kontextinformationen berücksichtigen kann.
Im Test des „Massive Text Embedding Benchmark“ (MTEB) erzielte das CDE-Modell die besten Ergebnisse in seiner Größenklasse. Experimente zeigten auch, dass CDE bei kleinen, spezifischen Datensätzen in Bereichen wie Finanzen oder Medizin besonders vorteilhaft ist und bei Aufgaben wie Klassifizierung, Clustering und semantischer Ähnlichkeit hervorragende Leistungen erbringt. Die Forscher weisen jedoch darauf hin, dass die Auswirkungen von CDE auf große Wissensdatenbanken mit Milliarden von Dokumenten noch unklar sind und weitere Forschung zur optimalen Kontextgröße und -auswahl notwendig ist.
Wichtigste Punkte:
🌟 Anthropics Methode der „Kontextuellen Suche“ kann die Fehlerrate bei der Informationsbeschaffung um bis zu 49 % senken und lässt sich mit anderen Techniken kombinieren, um die Genauigkeit weiter zu verbessern.
📊 Die „Contextual Document Embedding“-Methode der Cornell University zeigt besondere Stärken in bestimmten Bereichen und verbessert die Klassifizierungs- und Clustering-Aufgaben effektiv.
🔍 Zukünftige Forschung muss sich auf die Anwendung dieser Methoden auf große Wissensdatenbanken und die Suche nach optimalen Kontextverarbeitungsstrategien konzentrieren.