Cola
大規模言語モデルによる視覚推論調整器
一般製品生産性言語モデル視覚推論
Colaは、言語モデル(LM)を使用して2つ以上の視覚言語モデル(VLM)の出力を統合する手法です。このモデル統合手法は、Cola(COordinative LAnguage model for visual reasoning)と呼ばれています。Colaは、LMファインチューニング(Cola-FTと呼ばれます)を行うと最適な効果を発揮します。また、ゼロショットまたは少ショットコンテキスト学習(Cola-Zeroと呼ばれます)においても有効です。性能向上に加え、ColaはVLMのエラーに対してもよりロバストです。Colaは、InstructBLIPなどの大規模マルチモーダルモデルを含む様々なVLMと、VQA v2、OK-VQA、A-OKVQA、e-SNLI-VE、VSR、CLEVR、GQAの7つのデータセットに適用可能であり、常に性能向上を示すことを実証しました。
Cola 最新のトラフィック状況
月間総訪問数
474564576
直帰率
36.20%
平均ページ/訪問
6.1
平均訪問時間
00:06:34