CogVLM
Modelo de linguagem visual de código aberto poderoso
Produto ComumImagemModelo de linguagem visualDescrição de imagens
O CogVLM é um poderoso modelo de linguagem visual de código aberto. O CogVLM-17B possui 10 bilhões de parâmetros visuais e 7 bilhões de parâmetros de linguagem. O CogVLM-17B alcançou desempenho de ponta em 10 benchmarks clássicos de multimodalidade, incluindo NoCaps, Flicker30k Captions, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA e TDIUC, e ficou em segundo lugar em VQAv2, OKVQA, TextVQA, COCO Captions, superando ou igualando o PaLI-X 55B. O CogVLM também pode conversar com você sobre imagens.
CogVLM Situação do Tráfego Mais Recente
Total de Visitas Mensais
474564576
Taxa de Rejeição
36.20%
Média de Páginas por Visita
6.1
Duração Média da Visita
00:06:34