智譜AIオープンソースAgentタスクモデルCogAgent-9B：スクリーンショットによる操作予測

AIbase基地

公開日AIニュース · 1 分で読めます · Dec 27, 2024

253

智譜AI傘下のGLM-PC基盤モデルCogAgent-9Bがオープンソース化されました。これは大規模モデルAgentエコシステムの発展を促進するためです。CogAgent-9BはGLM-4V-9Bを基に訓練された、専用Agentタスクモデルです。スクリーンショットのみを入力として、ユーザーが指定した任意のタスクと過去の操作を組み合わせ、次のGUI操作を予測できます。このモデルの汎用性により、パソコン、スマートフォン、車載機器など、GUIインタラクションに基づく様々なシーンで広く活用できます。

微信截图_20241227091131.png

2023年12月にオープンソース化された最初のCogAgentモデルと比較して、CogAgent-9B-20241220は、GUI認識、推論予測精度、動作空間の完全性、タスクの汎用性と一般化性能において顕著な向上を見せており、中国語と英語の両方のスクリーンショットと言語インタラクションをサポートしています。CogAgentへの入力は、ユーザーの自然言語指示、実行済みの過去の動作記録、GUIスクリーンショットのみで、テキスト形式のレイアウト情報や追加の要素タグ情報は一切必要ありません。出力には、思考プロセス、次の動作の自然言語による説明、次の動作の構造化された説明、そして次の動作の危険性判断が含まれています。

性能テストでは、CogAgent-9B-20241220は複数のデータセットでトップレベルの結果を達成し、GUIの位置特定、単一操作、中国語step-wiseランキング、複数操作などにおける優位性を示しました。智譜AIのこの取り組みは、大規模モデル技術の発展を促進するだけでなく、視覚障害のあるIT従事者にも新たなツールと可能性を提供します。

コード:
https://github.com/THUDM/CogAgent
モデル:
Huggingface: https://huggingface.co/THUDM/cogagent-9b-20241220
魔搭社区:https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220

智譜AI GLM-PC CogAgent-9B GUIインタラクション

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

智譜AI、IPO指導開始　A株初のLLM企業を目指す

北京智譜華章科技股份有限公司（以下、「智譜AI」）は先日、北京証券監督管理委員会に株式新規公開（IPO）の指導备案を提出しました。これは「大規模言語モデル六小虎」企業として初めてIPOに着手した事例となります。順調に進めば、智譜AIは中国A株市場で初の「大規模言語モデル」上場企業となる見込みです。2019年に設立された智譜AIは、清華大学計算機系の技術成果転化から生まれました。設立以来、同社は強力な技術力とチーム体制を背景に、急速な発展を遂げています。

Apr 15, 2025

AIデイリーニュース：智譜が32B/9BシリーズGLMモデルをオープンソース化しZ.aiドメインを有効化、OpenAIがGPT-4.1シリーズモデルを発表、阿里巴巴魔搭がMCP広場をローンチ

Apr 15, 2025

智譜の新しいウェブサイト http://z.ai が正式に稼働開始

北京智譜華章科技有限公司（以下、智譜と略称）の新しい公式ウェブサイト https://z.ai が全面的にオンラインになりました。AIbaseの調べによると、このプラットフォームには最新の対話、推論、熟考の3つのGLMモデルが統合されており、本日より全世界のユーザーが無料で利用できるようになりました。

Apr 15, 2025

智譜AI、IPO手続き正式開始　大規模言語モデル「六龍」の新章へ

Apr 15, 2025

智譜AI、新ドメインZ.ai を導入し、32B/9BシリーズGLMモデルをオープンソース化

智譜テクノロジーチームは、32Bと9BシリーズのGLM（General Language Model）モデルをオープンソース化し、新しいインタラクティブエクスペリエンスプラットフォームZ.aiを正式にローンチしたことを発表しました。このシリーズのモデルには、基盤モデル、推論モデル、熟考モデルが含まれており、いずれも緩やかなMITライセンスに従い、開発者に大きな使用と開発の自由度を提供します。商業利用や自由な配布も無料で可能です。

Apr 15, 2025

智譜がAgent製品AutoGLM沉思を発表：思考しながら行動する初のインテリジェントエージェント

本日、智譜AIは2025中関村フォーラムにおいて、最新のAgent製品であるAutoGLM沉思を発表しました。これは、高度な研究能力と操作能力を兼ね備えた業界初のAgent製品であり、最大の特長は思考しながら行動できる点です。AutoGLM沉思は従来のAIモデルの限界を突破し、複雑な思考と実行操作を同時に行うことができます。人間のようにウェブページを開いて閲覧し、データ検索、分析からレポート作成までの全工程をこなすことができ、思考と行動の緊密な連携を実現しています。智譜は述べています

Mar 31, 2025

130

智譜AI社の社名変更

Mar 28, 2025

智譜AI、珠海から5億元を調達

先日、珠海華髮集団は、国内をリードするAI大規模モデル企業である智譜AIに戦略的投資を実施したと発表しました。投資額は5億元人民元に上ります。今回の投資は、智譜基座GLM大規模モデルの技術革新とエコシステムの発展を推進することを目的としており、珠海国有資本が智譜AIの投資陣営に加わったことを示しています。

Mar 13, 2025

智譜AIのオープンソース画像生成モデルCogView4、中国語と英語の両言語プロンプトに対応

智譜AIが最新のオープンソース画像生成モデルCogView4を発表しました。CogView4は、6億のパラメータ数を誇り、中国語入力と中国語テキストから画像への生成を全面的にサポートしており、画像の中に漢字を生成できる最初のオープンソースモデルとして注目されています。CogView4は、中国語と英語の両言語プロンプトに対応できる点が最大の特徴であり、特に複雑な中国語指示の理解と遵守に優れており、中国語コンテンツ制作者にとって朗報です。画像の中に漢字を生成できる最初のオープンソース画像生成モデルとして、オープンソース分野における大きな空白を埋めるものです。

Mar 4, 2025

智譜華章、10億円超の資金調達完了、次世代大規模言語モデルのオープンソース化を計画

Mar 3, 2025

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要

智譜AIオープンソースAgentタスクモデルCogAgent-9B：スクリーンショットによる操作予測

AIbase基地

この記事はAIbaseデイリーからのものです

関連AIニュースの推奨

智譜AI、IPO指導開始 A株初のLLM企業を目指す

AIデイリーニュース：智譜が32B/9BシリーズGLMモデルをオープンソース化しZ.aiドメインを有効化、OpenAIがGPT-4.1シリーズモデルを発表、阿里巴巴魔搭がMCP広場をローンチ

智譜の新しいウェブサイト http://z.ai が正式に稼働開始

智譜AI、IPO手続き正式開始 大規模言語モデル「六龍」の新章へ

智譜AI、新ドメインZ.ai を導入し、32B/9BシリーズGLMモデルをオープンソース化

智譜がAgent製品AutoGLM沉思を発表：思考しながら行動する初のインテリジェントエージェント

智譜AI社の社名変更

智譜AI、珠海から5億元を調達

智譜AIのオープンソース画像生成モデルCogView4、中国語と英語の両言語プロンプトに対応

智譜華章、10億円超の資金調達完了、次世代大規模言語モデルのオープンソース化を計画

智譜AI、IPO指導開始　A株初のLLM企業を目指す

智譜AI、IPO手続き正式開始　大規模言語モデル「六龍」の新章へ