VCoder

VCoderは、オブジェクトレベルのビジョンタスクにおけるマルチモーダル大規模言語モデルの性能を向上させるビジュアルパーセプションモデルです。

一般製品画像コンピュータビジョン自然言語処理
VCoderは、補助的なパーセプションモードを制御入力として用いることで、マルチモーダル大規模言語モデルのオブジェクトレベルのビジョンタスクにおける性能を向上させるアダプターです。VCoder LLaVAはLLaVA-1.5をベースに構築されています。VCoderはLLaVA-1.5のパラメータを微調整しないため、一般的なQ&Aベンチマークにおける性能はLLaVA-1.5と同等です。VCoderはCOSTデータセットでベンチマークされており、セマンティックセグメンテーション、インスタンスセグメンテーション、パノラマセグメンテーションの各タスクで良好な性能を示しています。また、モデルの検出結果と事前学習済みモデルも公開されています。
ウェブサイトを開く

VCoder 最新のトラフィック状況

月間総訪問数

474564576

直帰率

36.20%

平均ページ/訪問

6.1

平均訪問時間

00:06:34

VCoder 訪問数の傾向

VCoder 訪問地理的分布

VCoder トラフィックソース

VCoder 代替品