Cola
Modelo de linguagem de grande porte como coordenador de raciocínio visual
Produto ComumProdutividadeModelo de LinguagemRaciocínio Visual
Cola é um método que utiliza modelos de linguagem (LM) para agregar as saídas de dois ou mais modelos de linguagem visual (VLM). Nosso método de montagem de modelos é chamado Cola (COordinative LAnguage model or visual reasoning). O Cola apresenta melhor desempenho com o ajuste fino do LM (chamado Cola-FT). O Cola também é eficaz em aprendizado zero-shot ou few-shot (chamado Cola-Zero). Além do aumento de desempenho, o Cola também é mais robusto a erros de VLM. Demonstramos que o Cola pode ser aplicado a vários VLMs (incluindo grandes modelos multimodais como InstructBLIP) e sete conjuntos de dados (VQA v2, OK-VQA, A-OKVQA, e-SNLI-VE, VSR, CLEVR, GQA), sempre melhorando o desempenho.
Cola Situação do Tráfego Mais Recente
Total de Visitas Mensais
474564576
Taxa de Rejeição
36.20%
Média de Páginas por Visita
6.1
Duração Média da Visita
00:06:34