CogAgent: 180億パラメーターの視覚言語モデル

智譜AIは、CogAgentという180億パラメーター規模の視覚言語モデルをオープンソース化しました。

CogAgentは、GUIの理解と操作において優れた性能を発揮し、複数のベンチマークテストで最先端(SOTA)の汎用性を達成しています。

高解像度の画像入力と対話型質疑応答に対応しており、任意のGUIスクリーンショットに対する質疑応答が可能です。

さらに、CogAgentはOCR関連タスクにも対応しており、事前学習と微調整により能力が大幅に向上しています。

ユーザーはスクリーンショットをアップロードしてタスクを実行し、計画、次のアクション、具体的な操作座標情報を得ることができます。