Récemment, les laboratoires Tongyi d'Alibaba ont annoncé l'open source de leur dernier développement : ViDoRAG, un système de génération augmenté par la recherche (RAG) spécialement conçu pour la compréhension de documents visuels. Les tests de ViDoRAG sur le modèle GPT-4o ont montré une précision remarquable de 79,4 %, soit une amélioration de plus de 10 % par rapport aux systèmes RAG traditionnels. Cette percée marque une étape importante dans le domaine du traitement des documents visuels et offre de nouvelles possibilités pour l'application de l'intelligence artificielle à la compréhension de documents complexes.
Un cadre multi-agents pour la compréhension des documents visuels
ViDoRAG n'est pas un simple modèle unique, mais utilise une architecture innovante basée sur un cadre multi-agents. Selon les informations fournies, le système combine des agents de raisonnement itératif dynamique (Dynamic Iterative Reasoning Agents) et une technique de recherche hybride basée sur le modèle de mélange gaussien (GMM). Cette approche permet à ViDoRAG d'extraire et d'inférer des informations clés avec plus de précision lors du traitement de documents visuels contenant des images et du texte. Contrairement aux systèmes RAG traditionnels limités à la recherche textuelle, ViDoRAG améliore considérablement ses performances grâce à la fusion de données multimodales.
Les laboratoires Tongyi ont décrit en détail le fonctionnement de ViDoRAG dans un article et un dépôt de code. Le cœur du système repose sur la collaboration de plusieurs agents pour ajuster dynamiquement le processus de recherche et de génération, réduisant ainsi les « hallucinations » (c'est-à-dire la génération d'informations inexactes ou inventées par le modèle) dans des scénarios complexes et améliorant la fiabilité et la pertinence contextuelle des réponses.
Amélioration des performances : précision augmentée de plus de 10 %
Le système atteint une précision de 79,4 % sur GPT-4o. Ce chiffre met en évidence ses performances exceptionnelles et le compare aux systèmes RAG traditionnels. Bien que ces derniers excellent dans les tâches de génération de texte, ils sont souvent limités par leur capacité de recherche unimodale lors du traitement de documents visuels, leur précision restant généralement faible. ViDoRAG, grâce à l'intégration approfondie des informations visuelles et textuelles, améliore la précision de plus de 10 points de pourcentage. Cette avancée est d'une importance capitale pour les applications nécessitant une compréhension précise des documents, telles que l'analyse de documents juridiques, l'interprétation de rapports médicaux et le traitement de données d'entreprise.
La décision d'Alibaba Tongyi Labs de rendre ViDoRAG open source a également suscité de nombreuses discussions sur Twitter. Les utilisateurs estiment que cette publication met en lumière les compétences techniques d'Alibaba dans le domaine de l'IA et offre une ressource précieuse aux développeurs et chercheurs du monde entier. Grâce à la publication de l'article et du code (les liens correspondants ont été partagés sur le post Twitter), ViDoRAG devrait accélérer la recherche et l'application des technologies RAG pour les documents visuels, et favoriser le développement des systèmes d'IA multimodaux.
La publication et l'open source de ViDoRAG ouvrent sans aucun doute de nouvelles perspectives pour les technologies RAG. Face à la demande croissante de traitement de documents visuels, l'apparition de ViDoRAG n'est peut-être qu'un début, et nous pourrions assister à l'émergence de systèmes innovants similaires à l'avenir.