大規模言語モデル(LLM)の台頭は、人工知能アプリケーションに革命的な変化をもたらしましたが、表データの処理においては明らかな欠点がありました。浙江大学計算革新研究院の研究チームはこの問題に対処するため、TableGPT2という新しいモデルを発表しました。これは表データを直接的かつ効率的に統合・処理することができ、ビジネスインテリジェンス(BI)やその他のデータ駆動型アプリケーションに新たな可能性を切り開きます。

TableGPT2の中核となる革新は、独自の表エンコーダーにあります。このエンコーダーは、表の構造情報とセル内容情報を捉えるように特別に設計されており、現実世界のアプリケーションでよく見られる曖昧なクエリ、欠損列名、不規則な表を処理する能力を強化します。TableGPT2はQwen2.5アーキテクチャをベースとし、59万3800を超える表と236万を超える高品質のクエリ-表-出力タプルを用いた大規模な事前学習と微調整が行われています。これは以前の研究では前例のない表関連データの規模です。

image.png

TableGPT2のコーディングと推論能力を向上させるために、研究者たちは継続的プリトレーニング(CPT)を行いました。データの80%は注意深く注釈が付けられたコードであり、強力なコーディング能力を確保しています。さらに、彼らは大量の推論データと特定のドメイン知識を含む教科書を収集し、モデルの推論能力を強化しました。最終的なCPTデータには、厳しく選別された860億個のトークンが含まれており、TableGPT2が複雑なBIタスクやその他の関連タスクを処理するために必要なコーディングと推論能力を提供します。

TableGPT2が特定のBIタスクやシナリオへの適応において限界を持つことを解決するために、研究者たちは教師あり微調整(SFT)を行いました。彼らは、多様な会話、複雑な推論、ツールの使用、高度にビジネス化されたクエリなど、さまざまな重要な現実的なシナリオを含むデータセットを作成しました。このデータセットは、手動によるアノテーションと専門家主導の自動アノテーションプロセスを組み合わせており、データの品質と関連性を確保しています。SFTプロセスでは236万個のサンプルが使用され、モデルをさらに改良し、BIや表を含むその他の環境の特定のニーズを満たせるようにしました。

TableGPT2は、セマンティック表エンコーダーも革新的に導入しました。このエンコーダーは、表全体を入力として受け取り、各列に対して一連のコンパクトな埋め込みベクトルを生成します。このアーキテクチャは、表データの固有の特性に合わせてカスタマイズされており、双方向アテンションメカニズムと階層的特徴抽出プロセスを通じて、行と列間の関係を効果的に捉えます。さらに、列方向の対照学習法を採用し、モデルが意味のある構造認識表セマンティック表現を学習することを促します。

TableGPT2をエンタープライズレベルのデータ分析ツールとシームレスに統合するために、研究者たちはエージェントワークフローランタイムフレームワークも設計しました。このフレームワークには、ランタイムプロンプトエンジニアリング、安全なコードサンドボックス、エージェント評価モジュールという3つのコアコンポーネントが含まれており、エージェントの能力と信頼性を強化します。ワークフローは、モジュール化されたステップ(入力正規化、エージェント実行、ツール呼び出し)によって複雑なデータ分析タスクをサポートし、これらのステップが連携してエージェントのパフォーマンスを管理および監視します。効率的なコンテキスト検索のための検索強化生成(RAG)と安全な実行のためのコードサンドボックスを統合することにより、このフレームワークはTableGPT2が現実の問題において正確でコンテキストに関連する洞察を提供することを保証します。

研究者たちは、広く使用されている表と一般的なベンチマークテストでTableGPT2を幅広く評価し、その結果、TableGPT2は表の理解、処理、推論において優れた性能を示すことがわかりました。70億パラメーターモデルの平均性能は35.20%向上し、720億パラメーターモデルの平均性能は49.32%向上しました。同時に、強力な汎用性能を維持しています。公平な評価を行うために、彼らはTableGPT2をオープンソースのベンチマークニュートラルモデル(QwenやDeepSeekなど)と比較するのみとし、あらゆるタスクにおけるモデルのバランスのとれた多機能な性能を保証し、特定のベンチマークテストに過剰適合しないようにしました。彼らはまた、新しいベンチマークテストであるRealTabBenchを導入し、一部公開しました。このベンチマークテストは、非正規の表、匿名フィールド、複雑なクエリを強調しており、現実のシナリオにより適合しています。

TableGPT2は実験で最先端の性能を達成しましたが、LLMを現実世界のBI環境に展開する際には依然として課題があります。研究者たちは、将来の研究の方向性として以下を指摘しています。

特定ドメインコーディング:LLMが企業固有のドメイン固有言語(DSL)や擬似コードに迅速に適応できるようにし、企業のデータインフラストラクチャの特定のニーズをより適切に満たす。

マルチエージェント設計:現実世界のアプリケーションの複雑さを処理するために、複数のLLMを統一されたシステムに効果的に統合する方法を探求する。

多機能表処理:ExcelやPagesでよく見られるマージされたセルや不整合な構造など、不規則な表を処理するモデルの能力を向上させ、現実世界のさまざまな形式の表データをより適切に処理する。

TableGPT2の発表は、LLMが表データの処理において大きな進歩を遂げたことを示しており、ビジネスインテリジェンスやその他のデータ駆動型アプリケーションに新たな可能性をもたらします。研究の継続的な深化とともに、TableGPT2は将来のデータ分析分野でますます重要な役割を果たすと考えられます。

論文アドレス:https://arxiv.org/pdf/2411.02059v1