VCoder
VCoderは、オブジェクトレベルのビジョンタスクにおけるマルチモーダル大規模言語モデルの性能を向上させるビジュアルパーセプションモデルです。
一般製品画像コンピュータビジョン自然言語処理
VCoderは、補助的なパーセプションモードを制御入力として用いることで、マルチモーダル大規模言語モデルのオブジェクトレベルのビジョンタスクにおける性能を向上させるアダプターです。VCoder LLaVAはLLaVA-1.5をベースに構築されています。VCoderはLLaVA-1.5のパラメータを微調整しないため、一般的なQ&Aベンチマークにおける性能はLLaVA-1.5と同等です。VCoderはCOSTデータセットでベンチマークされており、セマンティックセグメンテーション、インスタンスセグメンテーション、パノラマセグメンテーションの各タスクで良好な性能を示しています。また、モデルの検出結果と事前学習済みモデルも公開されています。
VCoder 最新のトラフィック状況
月間総訪問数
474564576
直帰率
36.20%
平均ページ/訪問
6.1
平均訪問時間
00:06:34