智譜AI傘下のGLM-PC基盤モデルCogAgent-9Bがオープンソース化されました。これは大規模モデルAgentエコシステムの発展を促進するためです。CogAgent-9BはGLM-4V-9Bを基に訓練された、専用Agentタスクモデルです。スクリーンショットのみを入力として、ユーザーが指定した任意のタスクと過去の操作を組み合わせ、次のGUI操作を予測できます。このモデルの汎用性により、パソコン、スマートフォン、車載機器など、GUIインタラクションに基づく様々なシーンで広く活用できます。

微信截图_20241227091131.png

2023年12月にオープンソース化された最初のCogAgentモデルと比較して、CogAgent-9B-20241220は、GUI認識、推論予測精度、動作空間の完全性、タスクの汎用性と一般化性能において顕著な向上を見せており、中国語と英語の両方のスクリーンショットと言語インタラクションをサポートしています。CogAgentへの入力は、ユーザーの自然言語指示、実行済みの過去の動作記録、GUIスクリーンショットのみで、テキスト形式のレイアウト情報や追加の要素タグ情報は一切必要ありません。出力には、思考プロセス、次の動作の自然言語による説明、次の動作の構造化された説明、そして次の動作の危険性判断が含まれています。

性能テストでは、CogAgent-9B-20241220は複数のデータセットでトップレベルの結果を達成し、GUIの位置特定、単一操作、中国語step-wiseランキング、複数操作などにおける優位性を示しました。智譜AIのこの取り組みは、大規模モデル技術の発展を促進するだけでなく、視覚障害のあるIT従事者にも新たなツールと可能性を提供します。

コード:

https://github.com/THUDM/CogAgent

モデル:

Huggingface: https://huggingface.co/THUDM/cogagent-9b-20241220

魔搭社区:https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220