CogVLM

Modelo de linguagem visual de código aberto poderoso

Produto ComumImagemModelo de linguagem visualDescrição de imagens

O CogVLM é um poderoso modelo de linguagem visual de código aberto. O CogVLM-17B possui 10 bilhões de parâmetros visuais e 7 bilhões de parâmetros de linguagem. O CogVLM-17B alcançou desempenho de ponta em 10 benchmarks clássicos de multimodalidade, incluindo NoCaps, Flicker30k Captions, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA e TDIUC, e ficou em segundo lugar em VQAv2, OKVQA, TextVQA, COCO Captions, superando ou igualando o PaLI-X 55B. O CogVLM também pode conversar com você sobre imagens.

Descrever detalhes de imagens com precisão
Responder a vários tipos de perguntas
Localização visual

Utilizado para descrição de imagens
resposta a perguntas e localização visual

Use o CogVLM para descrever detalhes de imagens com precisão
Use o CogVLM para responder a vários tipos de perguntas
Use o CogVLM para localização visual

Abrir Site

CogVLM Situação do Tráfego Mais Recente

Total de Visitas Mensais

474564576

Taxa de Rejeição

36.20%

Média de Páginas por Visita

6.1

Duração Média da Visita

00:06:34

CogVLM Tendência de Visitas

CogVLM Distribuição Geográfica das Visitas

Best AI Websites & Tools

CogVLM

CogVLM Situação do Tráfego Mais Recente

CogVLM Tendência de Visitas

CogVLM Distribuição Geográfica das Visitas

CogVLM Fontes de Tráfego

CogVLM Alternativas

CogVLM — Modelo de linguagem visual de código aberto poderoso

PaliGemma2-3b-pt-448 — PaliGemma 2 é um poderoso modelo de linguagem visual que suporta diversas tarefas de linguagem visual.

Aya Vision 32B — Aya Vision 32B é um modelo de linguagem visual multilíngue, adequado para OCR, descrição de imagens, raciocínio visual e outras finalidades.

SigLIP2 — O SigLIP2 é um codificador visual de linguagem multilíngue lançado pelo Google, usado para classificação de imagens de amostra zero.

VLM-R1 — O VLM-R1 é um modelo de linguagem visual reforçado estável e versátil, focado em tarefas de compreensão visual.

MILS — LLMs podem ver e ouvir sem nenhum treinamento prévio.

SmolVLM-500M-Instruct — SmolVLM-500M é um modelo multimodal leve que processa entradas de imagem e texto e gera saídas de texto.

Ollama OCR para Web — Um poderoso pacote OCR que utiliza modelos de linguagem visual de última geração para extrair texto de imagens.

Moondream AI — Modelo de linguagem visual de código aberto, executável em diversos dispositivos.

PaliGemma2-3b-pt-224 — PaliGemma 2 é um poderoso modelo de linguagem e visão, que suporta tarefas de processamento de imagem e texto em vários idiomas.

InternVL2_5-26B-MPO — Modelo de linguagem grande multimodal que aprimora a interação entre visão e linguagem.

Aria-UI — Modelo multimodal para localização visual de comandos de GUI

Gerador Inteligente de Descrições de Imagens — Utiliza tecnologia inteligente para gerar descrições contextualmente relevantes para imagens.

cogagent-9b-20241220 — CogAgent-9B-20241220 é um modelo de agente de GUI baseado em modelo de linguagem visual.

CogAgent — Agente GUI baseado em um modelo de linguagem visual (VLM) de ponta a ponta de código aberto.

InternVL2_5-1B-MPO — Modelo de linguagem grande multimodal que aprimora a compreensão integrada de visão e linguagem.

PicWordify — Automatiza a geração de texto descritivo para imagens de sites

DeepSeek-VL2-Small — Modelo de linguagem visual avançado de grande escala e especialista misto.

DeepSeek-VL2-Tiny — Modelo avançado de linguagem visual de grande porte e especialista híbrido

POINTS-Yi-1.5-9B-Chat — Avanço recente em modelos de linguagem visual, integrando novas tecnologias do WeChat AI.

POINTS-Qwen-2-5-7B-Chat — Avanços recentes em modelos de linguagem visual

POINTS-1-5-Qwen-2-5-7B-Chat — Modelo de linguagem visual líder, suporta idiomas português e inglês com controle de alta qualidade, gratuito.

DeepSeek-VL2 — Modelo avançado de compreensão multimodal que integra capacidades visuais e linguísticas.

Florence-VL — Ferramenta de aprimoramento de modelos de linguagem visual, combinando codificador visual generativo e técnica de fusão profunda e ampla.

Qwen2-VL-7B — Qwen2-VL-7B é o mais recente modelo de linguagem visual, que suporta compreensão multimodal e geração de texto.

Qwen2-VL-2B — Modelo de linguagem visual de ponta, com suporte para compreensão multimodal e geração de texto.

PaliGemma 2 — O PaliGemma 2 é um poderoso modelo de linguagem visual, fácil de otimizar.

SmolVLM — Modelo de linguagem visual eficiente e de código aberto

LLaVA-o1 — Modelo de linguagem visual capaz de raciocínio passo a passo.

Aquila-VL-2B-llava-qwen — Modelo de linguagem visual que combina informações de imagem e texto para processamento inteligente.