El auge de los modelos lingüísticos grandes (LLM) ha revolucionado las aplicaciones de inteligencia artificial. Sin embargo, presentan deficiencias notables en el procesamiento de datos tabulares. Un equipo de investigación del Instituto de Innovación en Computación de la Universidad de Zhejiang ha abordado este problema presentando TableGPT2, un nuevo modelo que integra y procesa datos tabulares de forma directa y eficiente, abriendo nuevas posibilidades para la inteligencia empresarial (BI) y otras aplicaciones basadas en datos.
La innovación central de TableGPT2 reside en su codificador tabular único, diseñado para capturar la información estructural de las tablas y el contenido de las celdas. Esto mejora la capacidad del modelo para manejar consultas ambiguas, nombres de columnas faltantes y tablas irregulares, comunes en aplicaciones reales. TableGPT2 se basa en la arquitectura Qwen2.5 y se ha preentrenado y ajustado a gran escala con más de 593.800 tablas y 2,36 millones de tuplas de consulta-tabla-salida de alta calidad, una escala de datos tabulares sin precedentes en investigaciones anteriores.
Para mejorar la capacidad de codificación e inferencia de TableGPT2, los investigadores lo sometieron a un preentrenamiento continuo (CPT). El 80% de los datos consistían en código cuidadosamente anotado para garantizar una sólida capacidad de codificación. Además, recopilaron una gran cantidad de datos de inferencia y libros de texto con conocimiento de dominio específico para mejorar su capacidad de razonamiento. Los datos CPT finales comprendieron 86 mil millones de tokens rigurosamente filtrados, proporcionando a TableGPT2 la capacidad de codificación e inferencia necesaria para manejar tareas complejas de BI y otras tareas relacionadas.
Para abordar las limitaciones de TableGPT2 en la adaptación a tareas y escenarios específicos de BI, los investigadores lo ajustaron de forma supervisada (SFT). Construyeron un conjunto de datos que abarca diversos escenarios clave y realistas, incluyendo diálogos multiturno, razonamiento complejo, uso de herramientas y consultas altamente especializadas. Este conjunto de datos combinó anotaciones manuales y un proceso de anotación automática impulsado por expertos, garantizando la calidad y relevancia de los datos. El proceso SFT utilizó 2,36 millones de muestras, perfeccionando aún más el modelo para satisfacer las necesidades específicas de la BI y otros entornos que involucran tablas.
TableGPT2 también introduce innovadoramente un codificador tabular semántico que toma la tabla completa como entrada y genera un conjunto de vectores de incrustación compactos para cada columna. Esta arquitectura está personalizada para las propiedades únicas de los datos tabulares, capturando eficazmente las relaciones entre filas y columnas mediante un mecanismo de atención bidireccional y un proceso de extracción de características jerárquico. Además, se empleó un método de aprendizaje contrastivo por columnas para fomentar que el modelo aprenda representaciones semánticas tabulares significativas y conscientes de la estructura.
Para integrar TableGPT2 sin problemas con las herramientas de análisis de datos empresariales, los investigadores diseñaron un marco de tiempo de ejecución de flujo de trabajo de agente. Este marco incluye tres componentes principales: ingeniería de prompts en tiempo de ejecución, un sandbox de código seguro y un módulo de evaluación de agentes, que mejoran colectivamente la capacidad y confiabilidad del agente. El flujo de trabajo admite tareas complejas de análisis de datos a través de pasos modulares (normalización de entrada, ejecución del agente y llamadas a herramientas) que trabajan juntos para administrar y monitorear el rendimiento del agente. Al integrar la generación aumentada por recuperación (RAG) para la recuperación de contexto eficiente y un sandbox de código para la ejecución segura, el marco asegura que TableGPT2 proporcione información precisa y contextualizada en problemas reales.
Los investigadores evaluaron ampliamente TableGPT2 en una variedad de pruebas de referencia tabulares y generales ampliamente utilizadas. Los resultados mostraron que TableGPT2 tiene un rendimiento excelente en la comprensión, el procesamiento y la inferencia de tablas, con una mejora de rendimiento promedio del 35,20% para el modelo de 7 mil millones de parámetros y del 49,32% para el modelo de 72 mil millones de parámetros, mientras mantiene un sólido rendimiento general. Para una evaluación justa, solo compararon TableGPT2 con modelos neutrales de referencia de código abierto (como Qwen y DeepSeek), asegurando un rendimiento equilibrado y multifuncional en diversas tareas sin sobreajuste a ninguna prueba de referencia individual. También introdujeron y publicaron parcialmente una nueva prueba de referencia, RealTabBench, que enfatiza tablas no convencionales, campos anónimos y consultas complejas, reflejando mejor los escenarios del mundo real.
A pesar del rendimiento de vanguardia de TableGPT2 en los experimentos, persisten desafíos en la implementación de LLM en entornos de BI del mundo real. Los investigadores señalan que las futuras líneas de investigación incluyen:
Codificación de dominio específico: permitir que los LLM se adapten rápidamente a los lenguajes específicos de dominio (DSL) o pseudocódigos específicos de la empresa para satisfacer mejor las necesidades específicas de la infraestructura de datos de la empresa.
Diseño multiagente: explorar cómo integrar eficazmente múltiples LLM en un sistema unificado para manejar la complejidad de las aplicaciones reales.
Procesamiento de tablas multifuncional: mejorar la capacidad del modelo para manejar tablas irregulares, como las celdas combinadas y las estructuras inconsistentes comunes en Excel y Pages, para manejar mejor los datos tabulares en diversas formas del mundo real.
El lanzamiento de TableGPT2 marca un avance significativo en el procesamiento de datos tabulares por parte de los LLM, abriendo nuevas posibilidades para la inteligencia empresarial y otras aplicaciones basadas en datos. Se espera que, a medida que la investigación avance, TableGPT2 desempeñe un papel cada vez más importante en el campo del análisis de datos en el futuro.
Dirección del artículo: https://arxiv.org/pdf/2411.02059v1