CogAgent
オープンソースのエンドツーエンドの視覚言語モデル(VLM)ベースのGUIエージェント
一般製品プログラミング視覚言語モデルGUIエージェント
CogAgentは、スクリーンショットと自然言語を用いて、中国語と英語のバイリンガル対応を実現する、視覚言語モデル(VLM)ベースのGUIエージェントです。GUI認識、推論予測精度、操作空間の完全性、タスクの汎化において著しい進歩を遂げています。このモデルは既にZhipuAIのGLM-PC製品に適用されており、視覚言語モデルベースのGUIエージェントの研究開発を推進することを目指しています。
CogAgent 最新のトラフィック状況
月間総訪問数
474564576
直帰率
36.20%
平均ページ/訪問
6.1
平均訪問時間
00:06:34