CogVLM
強力なオープンソースのビジョン言語モデル
一般製品画像ビジョン言語モデル画像記述
CogVLMは、強力なオープンソースのビジョン言語モデルです。CogVLM-17Bは、100億個のビジュアルパラメータと70億個の言語パラメータを備えています。CogVLM-17Bは、NoCaps、Flicker30k字幕、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA、TDIUCなど、10個の古典的なクロスモーダルベンチマークテストで最先端の性能を達成し、VQAv2、OKVQA、TextVQA、COCO字幕などでは2位にランクインしており、PaLI-X 55Bを上回るか、同等の性能を示しています。CogVLMは、画像について対話することもできます。
CogVLM 最新のトラフィック状況
月間総訪問数
474564576
直帰率
36.20%
平均ページ/訪問
6.1
平均訪問時間
00:06:34