Cola

大規模言語モデルによる視覚推論調整器

一般製品生産性言語モデル視覚推論
Colaは、言語モデル(LM)を使用して2つ以上の視覚言語モデル(VLM)の出力を統合する手法です。このモデル統合手法は、Cola(COordinative LAnguage model for visual reasoning)と呼ばれています。Colaは、LMファインチューニング(Cola-FTと呼ばれます)を行うと最適な効果を発揮します。また、ゼロショットまたは少ショットコンテキスト学習(Cola-Zeroと呼ばれます)においても有効です。性能向上に加え、ColaはVLMのエラーに対してもよりロバストです。Colaは、InstructBLIPなどの大規模マルチモーダルモデルを含む様々なVLMと、VQA v2、OK-VQA、A-OKVQA、e-SNLI-VE、VSR、CLEVR、GQAの7つのデータセットに適用可能であり、常に性能向上を示すことを実証しました。
ウェブサイトを開く

Cola 最新のトラフィック状況

月間総訪問数

474564576

直帰率

36.20%

平均ページ/訪問

6.1

平均訪問時間

00:06:34

Cola 訪問数の傾向

Cola 訪問地理的分布

Cola トラフィックソース

Cola 代替品