智譜AI、オープンソースのビジョン言語モデルCogAgentを発表、GUIグラフィカルインターフェースによるQ&Aに対応

站长之家

公開日AIニュース · 1 分で読めます · Dec 21, 2023

158

CogAgent: 180億パラメーターの視覚言語モデル

智譜AIは、CogAgentという180億パラメーター規模の視覚言語モデルをオープンソース化しました。

CogAgentは、GUIの理解と操作において優れた性能を発揮し、複数のベンチマークテストで最先端（SOTA）の汎用性を達成しています。

高解像度の画像入力と対話型質疑応答に対応しており、任意のGUIスクリーンショットに対する質疑応答が可能です。

さらに、CogAgentはOCR関連タスクにも対応しており、事前学習と微調整により能力が大幅に向上しています。

ユーザーはスクリーンショットをアップロードしてタスクを実行し、計画、次のアクション、具体的な操作座標情報を得ることができます。

大規模言語モデルの効率を1.7倍に向上：バイトダンスのCOMET技術がオープンソース化

バイトダンス傘下の豆包大規模言語モデルチームは先日、混合専門家モデル（MoE）アーキテクチャにおける主要なボトルネックを克服し、COMETという名称の重要な最適化技術をオープンソース化したと発表しました。この技術は、大規模言語モデルのトレーニング効率を大幅に向上させ、最大1.7倍の効率向上を実現し、トレーニングコストを40％削減することに成功しました。画像注記：画像はAIによって生成され、画像ライセンス提供サービスMidjourneyを使用しています。COMET技術は、バイトダンスの万規模GPUクラスタトレーニングで実際に適用されており、数百万GPU時間の節約に貢献しています。

AI搭載ブラウザ？オープンソースツールBrowser Useがテック界を席巻　開発者「YYDS！」と絶賛！

最近、テック界と開発者コミュニティは、Browser Useというオープンソースプロジェクトで沸騰しています！このツールは、まるでAIに羽が生えたかのよう。人間のように自由にブラウザを操作し、自然言語でAIに様々なウェブタスクを自動実行させることができます。その強力な自動化能力と柔軟な展開方法は、瞬く間に世界中のテクノロジー愛好家の心を掴み、X（旧Twitter）では大きな話題を呼んでいます。Browser Useは、まさに燎原の火のごとく、AIによるブラウザ自動化分野を牽引しています。

ファーウェイ昇騰と階躍星辰、オープンソースのマルチモーダルモデルを発表 AI新分野に進出

先日、魔楽コミュニティ（Modelers）で、階躍星辰が開発したオープンソースのマルチモーダル大規模モデルであるStep-VideoとStep-Audioが正式に公開されました。これらのモデルは、それぞれ動画生成と音声対話に使用され、開発者と企業ユーザーにより強力なAIツールを提供することを目指しています。Step-Videoモデルの正式名称はStep-Video-T2Vで、300億パラメーターという世界最大のオープンソース動画生成モデルです。このモデルは、20秒の動画を直接生成できます。