最近、アリババはDS AssistantというAIデータサイエンスアシスタントを発表しました。これは、データ探索からモデル評価までの全プロセスを自動化し、データサイエンスの作業をよりシンプルで効率的にします。
DS Assistantは、アリババがオープンソース化したModelscope-Agentフレームワークに基づいて開発されています。このフレームワークは、豊富なツールエコシステムと柔軟なモジュール設計を備えています。DS Assistantの登場により、高度なデータサイエンスのバックグラウンドを持たないユーザーでも、複雑なデータサイエンスの問題を簡単に処理できるようになりました。
DS Assistantの最大の強みは、その自動化されたワークフローです。ユーザーはニーズを伝えるだけで、DS Assistantが探索的データ分析、データ前処理、特徴量エンジニアリング、モデルのトレーニングと評価などの手順を自動的に実行します。このプロセスにより、作業効率が向上し、データサイエンスのハードルが下がります。
Modelscope-AgentフレームワークはDS Assistantを支える強力な基盤であり、以下の特徴があります。
vllm、ollamaなど、主要なオープンソースモデルへの接続をサポートします。
RAGコンポーネントを提供し、知識ベースへの迅速な接続を可能にします。
豊富なツールエコシステムを提供し、Modelscopeコミュニティのモデルとlangchainツールをサポートします。
DS Assistantは、計画と実行の明確なステップを通じて複雑なタスクを効率的に完了する、新しいplan-and-executeフレームワークを採用しています。そのワークフローには、タスク計画、サブタスクのスケジューリング、タスクの実行、結果の統合が含まれ、タスク実行の効率と制御性が大幅に向上します。
システムアーキテクチャにおいて、DS Assistantは4つの主要なモジュールで構成されています。DS Assistant自体はシステムの中枢として全体を調整し、Planモジュールはタスクリストを生成してトポロジカルソートを行い、Executionモジュールは具体的な実行と結果の保存を行い、Memory managementモジュールはタスクの中間実行結果を記録します。
実例として、DS AssistantはKaggleのICR - Identifying Age-Related Conditionsコンペティションタスクで成功裏に適用されました。自動化されたデータ処理と分析プロセスを通じて、DS Assistantはタスク実行の成功率を向上させただけでなく、ユーザーに詳細な処理過程の記録も生成しました。
DS Assistantの効果はML-Benchmarkで評価され、Normalized Performance Score(NPS)、総時間、総トークン数の3つの指標から、DS Assistantは一部の複雑なデータサイエンスタスクにおいて、オープンソースSOTAを上回る成果を上げています。
DS Assistantの応用価値は次のとおりです。
データ分析プロセスに不慣れなユーザーにとって、DS Assistantはデータ処理の考え方と技術ポイントを迅速に理解するための手段を提供します。
データ分析プロセスに精通しているユーザーにとって、DS Assistantは詳細な処理方法の説明を提供し、実験の参照と比較を容易にします。
すべての人にとって、DS Assistantは現在のファイルに対するより深い理解を自動的に、迅速に実現できます。
将来、DS Assistantは、タスク実行の成功率の向上、対話型タスクの推進のサポート、バッチ処理による同一タスクの複数ファイルへの対応の3つの方向で最適化され、ユーザーエクスペリエンスのさらなる向上を目指します。
アリババのこの革新的なツールは、データサイエンス分野の参入障壁を下げるだけでなく、データサイエンティストに強力な自動化アシスタントを提供し、データサイエンス分野の新たな変革を示唆しています。
公式リポジトリ:https://github.com/modelscope/modelscope-agent/blob/master/examples/agents/data_science_assistant.ipynb
参考文献:https://blog.langchain.dev/planning-agents/