CogVLM

強力なオープンソースのビジョン言語モデル

一般製品画像ビジョン言語モデル画像記述
CogVLMは、強力なオープンソースのビジョン言語モデルです。CogVLM-17Bは、100億個のビジュアルパラメータと70億個の言語パラメータを備えています。CogVLM-17Bは、NoCaps、Flicker30k字幕、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA、TDIUCなど、10個の古典的なクロスモーダルベンチマークテストで最先端の性能を達成し、VQAv2、OKVQA、TextVQA、COCO字幕などでは2位にランクインしており、PaLI-X 55Bを上回るか、同等の性能を示しています。CogVLMは、画像について対話することもできます。
ウェブサイトを開く

CogVLM 最新のトラフィック状況

月間総訪問数

474564576

直帰率

36.20%

平均ページ/訪問

6.1

平均訪問時間

00:06:34

CogVLM 訪問数の傾向

CogVLM 訪問地理的分布

CogVLM トラフィックソース

CogVLM 代替品