Dans le domaine de l'intelligence artificielle, l'extraction précise d'informations à partir de bases de données de connaissances reste un défi majeur. Récemment, la société d'intelligence artificielle Anthropic a annoncé le lancement d'une nouvelle méthode appelée « récupération contextuelle », visant à améliorer la précision de la recherche d'informations. Cette méthode consiste à ajouter davantage d'informations contextuelles lors de la recherche, aidant ainsi les systèmes d'IA à fournir des réponses plus précises.

Anthropic, Claude

Les systèmes de génération améliorée par la recherche (RAG) existants segmentent généralement les documents en petits morceaux pour l'indexation, ce qui peut entraîner l'omission d'informations contextuelles importantes. La solution d'Anthropic consiste à ajouter un bref résumé du document avant chaque segment, généralement inférieur à 100 mots. Par exemple, le fragment de texte initial « Les revenus de la société ont augmenté de 3 % par rapport au trimestre précédent » devient après traitement contextuel : « Ce fragment provient du document SEC du deuxième trimestre 2023 d'ACME ; les revenus du trimestre précédent étaient de 314 millions de dollars, et les revenus de la société ont augmenté de 3 % par rapport au trimestre précédent. » Anthropic affirme que cette méthode permet de réduire le taux d'erreur de recherche d'informations jusqu'à 49 %. En combinant cette méthode avec un réordonnancement des résultats, l'amélioration de la précision peut même atteindre 67 %.

Plus intéressant encore, une étude de l'université Cornell soutient cette méthode de récupération contextuelle. Les chercheurs ont proposé une technique similaire, appelée « intégration contextuelle de documents » (CDE). Leur méthode consiste à réorganiser les données d'entraînement afin que chaque lot contienne des documents similaires mais difficiles à distinguer, incitant ainsi le modèle à apprendre des différences plus subtiles. De plus, les chercheurs ont développé un encodeur à deux étapes qui intègre directement les informations des documents voisins dans l'intégration, permettant au modèle de prendre en compte la fréquence relative des mots et d'autres indices contextuels.

Dans les tests du « MTEB » (banc d'essai d'intégration de texte massif), le modèle CDE a obtenu les meilleurs résultats dans sa catégorie de taille. Les expériences ont également montré que le CDE présente des avantages particuliers pour les petits ensembles de données spécifiques à un domaine, tels que la finance ou la médecine, et qu'il excelle dans des tâches telles que la classification, le clustering et la similarité sémantique. Cependant, les chercheurs soulignent qu'il n'est pas encore clair quel serait l'impact du CDE sur les grandes bases de connaissances contenant des milliards de documents, et que des recherches supplémentaires sont nécessaires sur la taille et la sélection optimales du contexte.

Points clés :

🌟 La méthode de « récupération contextuelle » d'Anthropic permet de réduire le taux d'erreur de recherche d'informations jusqu'à 49 % et peut être combinée à d'autres techniques pour améliorer encore la précision.

📊 La méthode d'« intégration contextuelle de documents » de l'université Cornell présente de solides avantages dans des domaines spécifiques et améliore efficacement les tâches de classification et de clustering.

🔍 Des recherches supplémentaires sont nécessaires pour déterminer comment appliquer ces méthodes aux bases de connaissances à grande échelle et pour trouver les meilleures stratégies de traitement contextuel.