Cola

Modelo de linguagem de grande porte como coordenador de raciocínio visual

Produto ComumProdutividadeModelo de LinguagemRaciocínio Visual
Cola é um método que utiliza modelos de linguagem (LM) para agregar as saídas de dois ou mais modelos de linguagem visual (VLM). Nosso método de montagem de modelos é chamado Cola (COordinative LAnguage model or visual reasoning). O Cola apresenta melhor desempenho com o ajuste fino do LM (chamado Cola-FT). O Cola também é eficaz em aprendizado zero-shot ou few-shot (chamado Cola-Zero). Além do aumento de desempenho, o Cola também é mais robusto a erros de VLM. Demonstramos que o Cola pode ser aplicado a vários VLMs (incluindo grandes modelos multimodais como InstructBLIP) e sete conjuntos de dados (VQA v2, OK-VQA, A-OKVQA, e-SNLI-VE, VSR, CLEVR, GQA), sempre melhorando o desempenho.
Abrir Site

Cola Situação do Tráfego Mais Recente

Total de Visitas Mensais

474564576

Taxa de Rejeição

36.20%

Média de Páginas por Visita

6.1

Duração Média da Visita

00:06:34

Cola Tendência de Visitas

Cola Distribuição Geográfica das Visitas

Cola Fontes de Tráfego

Cola Alternativas