En los últimos años, los modelos lingüísticos de gran tamaño (LLM) han recibido una atención considerable en el campo de la gestión de datos, con una creciente gama de aplicaciones que incluyen la integración de datos, la optimización de bases de datos, la optimización de consultas y la limpieza de datos. Sin embargo, aún existen muchos desafíos en el procesamiento de datos no estructurados, especialmente en documentos complejos.

image.png

Actualmente, algunos frameworks de procesamiento de datos no estructurados basados en LLM se centran más en la reducción de costos que en la mejora de la precisión del procesamiento. Este problema es particularmente pronunciado en tareas analíticas complejas, ya que los resultados de los LLM a menudo no satisfacen con precisión las necesidades específicas del usuario.

Tomemos como ejemplo el Proyecto de Informes de Investigación de la Universidad de California, Berkeley. Los investigadores querían analizar una gran cantidad de registros policiales obtenidos a través de solicitudes de registros para revelar la mala conducta policial y posibles violaciones de procedimiento. Esta tarea, denominada Identificación de Mala Conducta Policial (PMI), requiere el procesamiento de varios tipos de documentos, la extracción y resumen de información clave, y la agregación de datos en múltiples documentos para generar un resumen detallado de la conducta. Los métodos existentes suelen utilizar un LLM solo una vez para procesar cada documento. Esta operación de mapeo de un solo paso a menudo es insuficiente en términos de precisión, especialmente cuando la longitud del documento supera el límite de contexto del LLM, lo que puede provocar que se omita información importante.

Para abordar estos problemas, los equipos de investigación de la Universidad de California, Berkeley y la Universidad de Columbia propusieron un sistema innovador llamado DocETL. DocETL está diseñado para optimizar el flujo de trabajo de procesamiento de documentos complejos y abordar las limitaciones de los LLM existentes. El sistema proporciona una interfaz declarativa que permite a los usuarios definir con flexibilidad el flujo de trabajo de procesamiento y utiliza un framework basado en agentes para la optimización automática. Las funciones clave de DocETL incluyen un flujo de trabajo de reescritura lógica adaptado a las tareas de LLM, un mecanismo de evaluación de planificación guiado por agentes y un algoritmo de optimización eficiente que ayuda a identificar los planes de procesamiento más prometedores.

Al evaluar la tarea de identificación de mala conducta policial, DocETL utilizó un conjunto de 227 documentos del Departamento de Policía de California, enfrentándose a múltiples desafíos, como la longitud de los documentos que supera el límite de contexto del LLM. A través de la evaluación de diferentes variantes de canalización, DocETL demostró su capacidad única para optimizar las tareas de procesamiento de documentos complejos.

Las evaluaciones humanas y las revisiones de LLM mostraron que la precisión de la salida de DocETL fue 1,34 veces mayor que la de los métodos tradicionales, lo que demuestra la importancia y la eficacia del sistema en el procesamiento de tareas de documentos complejos.

En resumen, DocETL, como un sistema declarativo innovador, no solo puede resolver eficazmente muchos de los problemas en el procesamiento de documentos complejos, sino que también sienta una base sólida para futuras investigaciones y aplicaciones.

Artículo:https://arxiv.org/abs/2410.12189v1

Proyecto:https://github.com/ucbepic/docetl

Puntos clave:

🌟 Los LLM tienen una precisión insuficiente en el procesamiento de documentos complejos, presentando desafíos significativos.   

📄 El sistema DocETL proporciona una interfaz declarativa flexible y funciones de optimización automática para el procesamiento de documentos.   

🤖 Las evaluaciones humanas muestran una mejora significativa en la calidad de la salida de DocETL, con un aumento de 1,34 veces.