Nos últimos anos, os modelos de linguagem grandes (LLMs) têm recebido muita atenção na área de gerenciamento de dados, com sua aplicação se expandindo para áreas como integração de dados, otimização de bancos de dados, otimização de consultas e limpeza de dados. No entanto, ainda existem muitos desafios no processamento de dados não estruturados, especialmente documentos complexos.

image.png

Atualmente, algumas estruturas de processamento de dados não estruturados baseadas em LLM tendem a priorizar a redução de custos em detrimento do aumento da precisão do processamento. Esse problema é particularmente pronunciado em tarefas analíticas complexas, pois os resultados da saída do LLM geralmente não atendem precisamente às necessidades específicas do usuário.

Tomemos como exemplo o projeto de reportagem investigativa da Universidade da Califórnia, Berkeley. Os pesquisadores desejavam analisar uma grande quantidade de registros policiais obtidos por meio de solicitações de registros, a fim de revelar más condutas policiais e potenciais violações de procedimentos. Essa tarefa, chamada de Identificação de Má Conduta Policial (PMI), exige o processamento de vários tipos de documentos, a extração e o resumo de informações-chave e a agregação de dados em vários documentos para gerar um resumo detalhado do comportamento. Os métodos existentes geralmente usam o LLM apenas uma vez para processar cada documento. Essa operação de mapeamento de etapa única frequentemente apresenta precisão insuficiente, especialmente quando o comprimento do documento excede o limite de contexto do LLM, podendo levar à omissão de informações importantes.

Para resolver esses problemas, as equipes de pesquisa da Universidade da Califórnia, Berkeley, e da Universidade de Columbia propuseram um sistema inovador chamado DocETL. O DocETL visa otimizar o fluxo de trabalho de processamento de documentos complexos, superando as limitações dos LLMs existentes. O sistema fornece uma interface declarativa que permite aos usuários definir fluxos de trabalho de forma flexível e utilizar uma estrutura baseada em agentes para otimização automática. Os recursos principais do DocETL incluem um fluxo de trabalho de reescrita lógica personalizado para tarefas LLM, um mecanismo de avaliação de planejamento guiado por agentes e um algoritmo de otimização eficiente para identificar os planos de processamento mais promissores.

Na avaliação da tarefa de identificação de má conduta policial, o DocETL utilizou um conjunto de 227 documentos do departamento de polícia da Califórnia, enfrentando múltiplos desafios, como o comprimento do documento excedendo o limite de contexto do LLM. Através da avaliação de diferentes variantes de pipeline, o DocETL demonstrou sua capacidade única de otimizar tarefas de processamento de documentos complexos.

Avaliações humanas e revisões de LLM mostraram que a precisão da saída do DocETL foi 1,34 vezes maior do que a dos métodos tradicionais, demonstrando a importância e a eficácia do sistema no processamento de tarefas de documentos complexos.

Em resumo, o DocETL, como um sistema declarativo inovador, não apenas resolve eficazmente muitos problemas no processamento de documentos complexos, mas também estabelece uma base sólida para pesquisas e aplicações futuras.

Artigo:https://arxiv.org/abs/2410.12189v1

Projeto:https://github.com/ucbepic/docetl

Destaques:

🌟 Os LLMs apresentam precisão insuficiente no processamento de documentos complexos, com desafios significativos.   

📄 O sistema DocETL fornece uma interface declarativa flexível e recursos de otimização automática para o processamento de documentos.   

🤖 Através de avaliações humanas, a qualidade da saída do DocETL foi significativamente melhorada, com um aumento de 1,34 vezes.