L'essor des grands modèles de langage (LLM) a révolutionné les applications de l'intelligence artificielle. Cependant, ils présentent des lacunes manifestes dans le traitement des données tabulaires. Pour pallier ce problème, une équipe de recherche de l'Institut de l'innovation en calcul de l'Université de Zhejiang a développé TableGPT2, un nouveau modèle capable d'intégrer et de traiter efficacement les données tabulaires, ouvrant ainsi de nouvelles perspectives pour le Business Intelligence (BI) et autres applications basées sur les données.
L'innovation principale de TableGPT2 réside dans son encodeur tabulaire unique, conçu pour capturer les informations structurelles des tableaux et le contenu des cellules. Cela améliore la capacité du modèle à gérer les requêtes ambiguës, les noms de colonnes manquants et les tableaux irréguliers, fréquents dans les applications réelles. TableGPT2 est basé sur l'architecture Qwen2.5 et a bénéficié d'un pré-entraînement et d'un réglage fin à grande échelle, utilisant plus de 593 800 tableaux et 2,36 millions de triplets requête-tableau-sortie de haute qualité – une échelle de données tabulaires sans précédent dans les recherches précédentes.
Pour améliorer les capacités d'encodage et de raisonnement de TableGPT2, les chercheurs ont procédé à un pré-entraînement continu (CPT). 80 % des données étaient constituées de code soigneusement annoté pour garantir de solides capacités d'encodage. Ils ont également collecté un grand nombre de données de raisonnement et de manuels contenant des connaissances spécifiques à un domaine pour renforcer les capacités de raisonnement du modèle. Les données CPT finales contiennent 86 milliards de jetons rigoureusement sélectionnés, fournissant à TableGPT2 les capacités d'encodage et de raisonnement nécessaires pour gérer des tâches BI complexes et autres tâches connexes.
Pour résoudre les limites de TableGPT2 en termes d'adaptation à des tâches et scénarios BI spécifiques, les chercheurs ont effectué un réglage fin supervisé (SFT). Ils ont créé un ensemble de données couvrant divers scénarios clés et réels, notamment les dialogues multi-tours, le raisonnement complexe, l'utilisation d'outils et les requêtes hautement opérationnelles. Cet ensemble de données combine l'annotation manuelle et un processus d'annotation automatique piloté par des experts, garantissant la qualité et la pertinence des données. Le processus SFT a utilisé 2,36 millions d'échantillons, améliorant encore le modèle pour répondre aux besoins spécifiques de la BI et d'autres environnements impliquant des tableaux.
TableGPT2 introduit également de manière innovante un encodeur tabulaire sémantique qui prend le tableau entier en entrée et génère un ensemble de vecteurs d'intégration compacts pour chaque colonne. Cette architecture est personnalisée pour les propriétés uniques des données tabulaires, capturant efficacement les relations entre les lignes et les colonnes grâce à un mécanisme d'attention bidirectionnelle et un processus d'extraction de caractéristiques hiérarchiques. De plus, une méthode d'apprentissage contrastif par colonne est utilisée pour encourager le modèle à apprendre des représentations sémantiques tabulaires significatives et sensibles à la structure.
Pour une intégration transparente de TableGPT2 avec les outils d'analyse de données d'entreprise, les chercheurs ont également conçu un framework d'exécution de workflow d'agent. Ce framework comprend trois composants principaux : l'ingénierie des invites d'exécution, un bac à sable de code sécurisé et un module d'évaluation d'agent, améliorant collectivement les capacités et la fiabilité de l'agent. Le workflow prend en charge les tâches d'analyse de données complexes grâce à des étapes modulaires (normalisation des entrées, exécution de l'agent et appel d'outils) qui fonctionnent ensemble pour gérer et surveiller les performances de l'agent. En intégrant la génération améliorée par la recherche (RAG) pour une récupération de contexte efficace et un bac à sable de code pour une exécution sécurisée, ce framework garantit que TableGPT2 fournit des informations précises et contextuelles pour les problèmes réels.
Les chercheurs ont mené une évaluation approfondie de TableGPT2 sur divers benchmarks tabulaires et généraux largement utilisés. Les résultats montrent que TableGPT2 excelle dans la compréhension, le traitement et le raisonnement tabulaires, avec une amélioration moyenne des performances de 35,20 % pour le modèle à 7 milliards de paramètres et de 49,32 % pour le modèle à 720 milliards de paramètres, tout en conservant de solides performances générales. Pour une évaluation équitable, ils ont uniquement comparé TableGPT2 à des modèles neutres de référence open source (tels que Qwen et DeepSeek), garantissant des performances équilibrées et polyvalentes du modèle sur diverses tâches, sans sur-adaptation à un benchmark spécifique. Ils ont également introduit et partiellement publié un nouveau benchmark, RealTabBench, qui met l'accent sur les tableaux non conventionnels, les champs anonymes et les requêtes complexes, reflétant plus fidèlement les scénarios réels.
Bien que TableGPT2 ait atteint des performances de pointe dans les expériences, des défis persistent quant au déploiement des LLM dans les environnements BI du monde réel. Les chercheurs soulignent les axes de recherche futurs :
Encodage spécifique au domaine : permettre aux LLM de s'adapter rapidement aux langages spécifiques à un domaine (DSL) ou pseudo-codes spécifiques à une entreprise pour mieux répondre aux besoins spécifiques de l'infrastructure de données de l'entreprise.
Conception multi-agents : explorer comment intégrer efficacement plusieurs LLM dans un système unifié pour gérer la complexité des applications réelles.
Traitement tabulaire polyvalent : améliorer la capacité du modèle à gérer les tableaux irréguliers, tels que les cellules fusionnées et les structures incohérentes courantes dans Excel et Pages, pour mieux gérer les données tabulaires sous diverses formes dans le monde réel.
Le lancement de TableGPT2 marque une avancée majeure dans le traitement des données tabulaires par les LLM, ouvrant de nouvelles possibilités pour le Business Intelligence et autres applications basées sur les données. Avec l'approfondissement des recherches, TableGPT2 jouera un rôle de plus en plus important dans le domaine de l'analyse de données à l'avenir.
Adresse de l'article : https://arxiv.org/pdf/2411.02059v1