Recentemente, o Alibaba DAMO Academy anunciou o lançamento de código aberto de sua mais recente pesquisa, o ViDoRAG, um sistema de Recuperação Aumentada por Geração (RAG) projetado especificamente para compreensão de documentos visuais. Testes do ViDoRAG no modelo GPT-4o mostraram uma impressionante precisão de 79,4%, uma melhoria de mais de 10% em comparação com sistemas RAG tradicionais. Essa inovação representa um avanço significativo no processamento de documentos visuais, abrindo novas possibilidades para a aplicação da inteligência artificial na compreensão de documentos complexos.
Estrutura de Multiagentes Potencializando a Compreensão de Documentos Visuais
O ViDoRAG não é um modelo único tradicional, mas sim um sistema inovador baseado em uma estrutura de multiagentes. Segundo a descrição, o sistema combina agentes de raciocínio iterativo dinâmico (Dynamic Iterative Reasoning Agents) e uma técnica de recuperação híbrida baseada em GMM (Modelo de Mistura Gaussiana). Esse método permite que o ViDoRAG extraia e raciocine informações cruciais com maior precisão ao processar documentos visuais contendo imagens e texto. Em comparação com os sistemas RAG tradicionais, que se limitam à recuperação de texto, o ViDoRAG melhora significativamente o desempenho por meio da fusão de dados multimodais.
O Alibaba DAMO Academy descreve detalhadamente o funcionamento do ViDoRAG em sua publicação e repositório de código. Seu núcleo reside na colaboração de múltiplos agentes para ajustar dinamicamente os processos de recuperação e geração, reduzindo assim a ocorrência de "alucinações" (isto é, conteúdo impreciso ou inventado pelo modelo) em cenários complexos e melhorando a confiabilidade e a relevância contextual das respostas.
Avanço de Desempenho: Precisão Aumentada em Mais de 10%
O sistema atingiu uma precisão de 79,4% no GPT-4o, demonstrando não apenas seu desempenho excepcional, mas também uma comparação com sistemas RAG tradicionais. Embora os sistemas RAG tradicionais se destaquem em tarefas de geração de texto, seu desempenho na manipulação de documentos visuais é frequentemente limitado pela capacidade de recuperação unimodal, resultando em taxas de precisão geralmente baixas. O ViDoRAG, por meio da integração profunda de informações visuais e textuais, aumentou a precisão em mais de 10 pontos percentuais. Esse avanço é crucial para cenários que exigem alta precisão na compreensão de documentos, como análise de documentos legais, interpretação de relatórios médicos e processamento de dados corporativos.
A decisão do Alibaba DAMO Academy de disponibilizar o ViDoRAG como código aberto também gerou discussões no Twitter. Os usuários acreditam que a publicação desse sistema não apenas demonstra a força tecnológica do Alibaba na área de IA, mas também fornece um recurso valioso para desenvolvedores e pesquisadores em todo o mundo. Ao tornar públicos a publicação e o código (links relevantes compartilhados na postagem do Twitter), o ViDoRAG pode acelerar a pesquisa e aplicação da tecnologia RAG para documentos visuais, impulsionando o desenvolvimento de sistemas de IA multimodais.
O lançamento e a disponibilização do ViDoRAG como código aberto, sem dúvida, abrem novas perspectivas para a tecnologia RAG. Com o crescimento contínuo da demanda por processamento de documentos visuais, o surgimento do ViDoRAG pode ser apenas o começo, e podemos esperar o aparecimento de mais sistemas inovadores semelhantes no futuro.
Projeto: https://github.com/Alibaba-NLP/ViDoRAG