百川智能と天津大学が共同で開発した「Sibyl System」インテリジェントエージェントフレームワークが、GAIA Leader Boardで1位を獲得しました。GAIAは、Meta、Huggingface、AutoGPTが2023年11月に発表した新しい評価方法で、エージェントが複雑なタスクを実行する能力と手法を主に評価します。この評価方法は、既存モデルの能力不足を明らかにし、モデルとエージェントの開発改善の方向性を示しました。
GAIAのテスト問題は現実世界により近く、AIには推論、マルチモーダル理解(テキスト、画像、音声/動画)、ウェブブラウジング、ツール使用などの能力が求められます。これらの問題は人間にとっては容易に理解できますが、モデルにとっては非常に困難です。例えば、GPT-4の成功率は15%に過ぎない一方、人間の被験者は92%の成功率を達成しました。これらの問題を解くには、通常、長い論理チェーンと時間、複数のステップとツールが必要です。
「Sibyl System」フレームワークの設計の特徴は以下のとおりです。
検索強化生成に代わる、人間のようなブラウザインターフェース。
対話に代わる質疑応答。ステートレスな質疑応答関数を使用することで、システムアーキテクチャを簡素化。
ウェブブラウザとPython環境という2つの一般的なツールのみを使用し、専用ツールの依存性を削減。
System1からSystem2へ、「陪審員」メカニズムを導入。複数エージェントによる議論を通して自己批判と修正を行い、グローバルワークスペースの情報を利用して応答の精度を高める。
Sibyl Systemは、シンプルながらも強力な大規模言語モデルベースのエージェントフレームワークです。少ないツールで複雑な推論問題を解決できます。グローバルワークスペースとマルチエージェントメカニズム、ブラウザベースの汎用情報取得チャネルを導入することで、システムの複雑さを軽減しつつ、問題解決の複雑性を拡張し、モデルの「速い思考」から「遅い思考」への転換を実現しました。また、高い拡張性とデバッグの容易さを備え、他のモデルのエージェントモジュールを簡単に置き換えることで、モデルの能力を向上させることができます。