Der Aufstieg großer Sprachmodelle (LLMs) hat die Anwendungen der künstlichen Intelligenz revolutioniert. Sie weisen jedoch deutliche Schwächen bei der Verarbeitung von Tabellendaten auf. Ein Forschungsteam des Zentrums für rechnergestützte Innovation der Zhejiang-Universität hat zur Lösung dieses Problems TableGPT2 entwickelt, ein neues Modell, das Tabellendaten direkt und effizient integriert und verarbeitet und so neue Möglichkeiten für Business Intelligence (BI) und andere datengetriebene Anwendungen eröffnet.
Die Kerninnovation von TableGPT2 liegt in seinem einzigartigen Tabellen-Encoder, der speziell entwickelt wurde, um Strukturinformationen und Zelleninhalte von Tabellen zu erfassen. Dies verbessert die Fähigkeit des Modells, mit in realen Anwendungen häufig vorkommenden unscharfen Abfragen, fehlenden Spaltennamen und unregelmäßigen Tabellen umzugehen. TableGPT2 basiert auf der Qwen2.5-Architektur und wurde mit über 593.800 Tabellen und 2,36 Millionen hochwertigen Abfrage-Tabelle-Ausgabe-Tupeln umfassend vor- und feingetunt – ein beispielloser Umfang an tabellenbezogenen Daten in früheren Studien.
Um die Codierungs- und Inferenzfähigkeit von TableGPT2 zu verbessern, wurde es einem kontinuierlichen Vortraining (CPT) unterzogen. 80 % der Daten bestanden aus sorgfältig annotiertem Code, um seine starken Codierungsfähigkeiten sicherzustellen. Zusätzlich wurden umfangreiche Inferenzdaten und Lehrbücher mit domänenspezifischem Wissen gesammelt, um die Inferenzfähigkeit des Modells zu verbessern. Die endgültigen CPT-Daten umfassten 86 Milliarden sorgfältig ausgewählte Tokens, was TableGPT2 die notwendigen Codierungs- und Inferenzfähigkeiten für die Bearbeitung komplexer BI-Aufgaben und anderer verwandter Aufgaben verleiht.
Um die Einschränkungen von TableGPT2 bei der Anpassung an spezifische BI-Aufgaben und -Szenarien zu beheben, wurde es einer überwachten Feinabstimmung (SFT) unterzogen. Es wurde ein Datensatz erstellt, der verschiedene wichtige und reale Szenarien abdeckt, darunter mehrstufige Dialoge, komplexes Schließen, Werkzeugverwendung und stark geschäftsorientierte Abfragen. Dieser Datensatz kombiniert manuelle Annotationen und einen expertengeführten automatischen Annotationsprozess, um die Qualität und Relevanz der Daten sicherzustellen. Der SFT-Prozess verwendete insgesamt 2,36 Millionen Beispiele und verbesserte das Modell weiter, sodass es die spezifischen Anforderungen von BI und anderen tabellenbezogenen Umgebungen erfüllen kann.
TableGPT2 führt innovativ einen semantischen Tabellen-Encoder ein, der die gesamte Tabelle als Eingabe verwendet und für jede Spalte einen Satz kompakter Einbettungsvektoren generiert. Diese Architektur ist auf die einzigartigen Eigenschaften von Tabellendaten zugeschnitten und erfasst durch einen bidirektionalen Aufmerksamkeitsmechanismus und einen hierarchischen Merkmalsextraktionsprozess effektiv die Beziehungen zwischen Zeilen und Spalten. Darüber hinaus wurde eine spaltenweise kontrastive Lernmethode verwendet, um das Modell zu ermutigen, sinnvolle, strukturbewusste semantische Tabellenrepräsentationen zu lernen.
Um TableGPT2 nahtlos in unternehmensweite Datenanalysetools zu integrieren, wurde ein Proxy-Workflow-Laufzeitframework entwickelt. Dieses Framework umfasst drei Kernkomponenten: Laufzeit-Prompt-Engineering, eine sichere Code-Sandbox und ein Proxy-Bewertungsmodul, die gemeinsam die Fähigkeiten und Zuverlässigkeit des Proxys verbessern. Der Workflow unterstützt komplexe Datenanalyseaufgaben durch modulare Schritte (Eingabenormalisierung, Proxy-Ausführung und Tool-Aufrufe), die zusammenarbeiten, um die Leistung des Proxys zu verwalten und zu überwachen. Durch die Integration von Retrieval-Augmented Generation (RAG) für effizientes Kontext-Retrieval und einer Code-Sandbox für sichere Ausführung stellt das Framework sicher, dass TableGPT2 in realen Problemen genaue und kontextbezogene Erkenntnisse liefert.
TableGPT2 wurde in verschiedenen weit verbreiteten Tabellen- und allgemeinen Benchmark-Tests umfassend bewertet. Die Ergebnisse zeigen, dass TableGPT2 eine hervorragende Leistung in Bezug auf Tabellenverständnis, -verarbeitung und -Inferenz erzielt. Das 7-Milliarden-Parameter-Modell erzielte eine durchschnittliche Leistungsverbesserung von 35,20 %, das 720-Milliarden-Parameter-Modell eine durchschnittliche Leistungsverbesserung von 49,32 %, wobei gleichzeitig eine starke allgemeine Leistung beibehalten wurde. Um eine faire Bewertung zu gewährleisten, wurde TableGPT2 nur mit neutralen Open-Source-Benchmark-Modellen (wie Qwen und DeepSeek) verglichen, um eine ausgewogene, vielseitige Leistung in verschiedenen Aufgaben sicherzustellen und eine Überanpassung an einen einzelnen Benchmark-Test zu vermeiden. Es wurde auch ein neuer Benchmark-Test, RealTabBench, eingeführt und teilweise veröffentlicht, der unkonventionelle Tabellen, anonyme Felder und komplexe Abfragen betont und realen Szenarien besser entspricht.
Obwohl TableGPT2 in den Experimenten Spitzenergebnisse erzielt hat, gibt es immer noch Herausforderungen bei der Bereitstellung von LLMs in realen BI-Umgebungen. Die Forscher weisen auf folgende zukünftige Forschungsrichtungen hin:
Domänenspezifische Codierung: LLMs sollen schnell an unternehmensspezifische domänenspezifische Sprachen (DSLs) oder Pseudocode angepasst werden können, um die spezifischen Anforderungen der Unternehmensdateninfrastruktur besser zu erfüllen.
Mehr-Agenten-Design: Es soll untersucht werden, wie mehrere LLMs effektiv in ein einheitliches System integriert werden können, um die Komplexität realer Anwendungen zu bewältigen.
Vielseitige Tabellenverarbeitung: Die Fähigkeit des Modells zur Verarbeitung unregelmäßiger Tabellen, z. B. die in Excel und Pages häufig vorkommenden zusammengeführten Zellen und inkonsistenten Strukturen, soll verbessert werden, um verschiedene Formen von Tabellendaten in der realen Welt besser zu verarbeiten.
Die Einführung von TableGPT2 markiert einen bedeutenden Fortschritt bei der Verarbeitung von Tabellendaten durch LLMs und eröffnet neue Möglichkeiten für Business Intelligence und andere datengetriebene Anwendungen. Mit dem Fortschreiten der Forschung wird TableGPT2 in Zukunft eine immer wichtigere Rolle im Bereich der Datenanalyse spielen.
论文地址:https://arxiv.org/pdf/2411.02059v1