Ces dernières années, les grands modèles linguistiques (LLM) ont suscité un intérêt considérable dans le domaine de la gestion des données, leur champ d'application s'étendant à l'intégration des données, à l'optimisation des bases de données, à l'optimisation des requêtes et au nettoyage des données. Cependant, le traitement des données non structurées, en particulier des documents complexes, reste un défi majeur.
Actuellement, certains frameworks de traitement de données non structurées basés sur les LLM privilégient la réduction des coûts au détriment de la précision du traitement. Ce problème est particulièrement flagrant pour les tâches complexes, car les résultats produits par les LLM ne répondent souvent pas précisément aux besoins spécifiques des utilisateurs.
Prenons l'exemple du projet d'investigation journalistique de l'Université de Californie à Berkeley. Les chercheurs souhaitaient analyser un grand nombre de rapports de police obtenus par des demandes d'accès aux documents, afin de mettre en lumière les comportements répréhensibles des agents et les éventuelles violations de procédure. Cette tâche, appelée Identification des Mauvaises Conduites Policières (PMI), nécessite le traitement de divers types de documents, l'extraction et la synthèse d'informations clés, ainsi que l'agrégation de données provenant de plusieurs documents pour générer un résumé détaillé des comportements.
Les méthodes existantes utilisent généralement un LLM une seule fois pour traiter chaque document. Cette opération de mappage en une seule étape est souvent imprécise, surtout lorsque la longueur du document dépasse les limites contextuelles du LLM, ce qui peut entraîner la perte d'informations importantes.
Pour résoudre ces problèmes, les équipes de recherche de l'Université de Californie à Berkeley et de l'Université de Columbia ont proposé un système innovant appelé DocETL. DocETL vise à optimiser le processus de traitement de documents complexes et à pallier les limites des LLM existants. Ce système fournit une interface déclarative permettant aux utilisateurs de définir de manière flexible le processus de traitement et d'utiliser un framework basé sur des agents pour l'optimisation automatique. Les fonctionnalités clés de DocETL incluent un processus de réécriture logique adapté aux tâches LLM, un mécanisme d'évaluation de planification guidé par des agents et un algorithme d'optimisation efficace permettant d'identifier les plans de traitement les plus prometteurs.
Lors de l'évaluation de la tâche d'identification des mauvaises conduites policières, DocETL a utilisé un ensemble de 227 documents provenant du département de police de Californie, confronté à de multiples défis, notamment la longueur des documents dépassant les limites contextuelles du LLM. Grâce à l'évaluation de différentes variantes de pipeline, DocETL a démontré sa capacité unique à optimiser les tâches de traitement de documents complexes.
Les évaluations humaines et les revues par LLM ont montré que la précision des résultats de DocETL était 1,34 fois supérieure à celle des méthodes traditionnelles, ce qui souligne l'importance et l'efficacité de ce système pour le traitement de tâches complexes sur documents.
En résumé, DocETL, en tant que système déclaratif innovant, permet non seulement de résoudre efficacement les nombreux problèmes liés au traitement de documents complexes, mais pose également les bases de futures recherches et applications.
Article : https://arxiv.org/abs/2410.12189v1
Projet : https://github.com/ucbepic/docetl
Points clés :
🌟 Les LLM présentent une précision insuffisante et des défis importants pour le traitement de documents complexes.
📄 Le système DocETL offre une interface déclarative flexible et des fonctionnalités d'optimisation automatique pour le traitement de documents.
🤖 L'évaluation humaine a montré une amélioration significative de la qualité des résultats de DocETL, avec une augmentation de 1,34 fois.