CogVLM

强大的开源视觉语言模型

普通产品图像视觉语言模型图像描述

CogVLM是一个强大的开源视觉语言模型。CogVLM-17B拥有100亿个视觉参数和70亿个语言参数。CogVLM-17B在10个经典的跨模态基准测试中取得了最先进的性能，包括NoCaps、Flicker30k字幕、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA和TDIUC，并在VQAv2、OKVQA、TextVQA、COCO字幕等方面排名第二，超过或与PaLI-X 55B相匹配。CogVLM还可以与您就图像进行对话。

准确描述图像细节
回答各种类型的问题
视觉定位

用于图像描述、问题回答和视觉定位

使用CogVLM准确描述图像细节
使用CogVLM回答各种类型的问题
使用CogVLM进行视觉定位

打开网站

CogVLM 最新流量情况

月总访问量

502571820

跳出率

37.10%

平均页面访问数

5.9

平均访问时长

00:06:29

CogVLM 访问量趋势

CogVLM 访问地理位置分布

CogVLM 流量来源

CogVLM 替代品

Best AI Websites & Tools

CogVLM

CogVLM 最新流量情况

CogVLM 访问量趋势

CogVLM 访问地理位置分布

CogVLM 流量来源

CogVLM 替代品

R1-V — 低成本强化视觉语言模型的泛化能力，仅需不到3美元。

MILS — LLMs 无需任何培训就能看见和听见

SmolVLM-500M-Instruct — SmolVLM-500M 是一个轻量级多模态模型，能够处理图像和文本输入并生成文本输出。

Ollama OCR for web — 一个强大的OCR包，使用最先进的视觉语言模型提取图像中的文本。

Moondream AI — 开源的视觉语言模型，可在多种设备上运行。

PaliGemma2-3b-pt-224 — PaliGemma 2是一款强大的视觉-语言模型，支持多种语言的图像和文本处理任务。

PaliGemma2-3b-pt-448 — PaliGemma 2是一个强大的视觉-语言模型，支持多种视觉语言任务。

InternVL2_5-26B-MPO — 多模态大型语言模型，提升视觉与语言的交互能力。

Aria-UI — 视觉定位GUI指令的多模态模型

cogagent-9b-20241220 — CogAgent-9B-20241220是基于视觉语言模型的GUI代理模型。

vision-parse — 利用视觉语言模型将PDF解析为Markdown。

CogAgent — 开源的端到端视觉语言模型（VLM）基础的GUI代理

InternVL2_5-1B-MPO — 多模态大型语言模型，提升视觉和语言的综合理解能力

PicWordify — 自动化为网站图片生成描述性文本

DeepSeek-VL2-Small — 先进的大型混合专家视觉语言模型

DeepSeek-VL2-Tiny — 先进的大型混合专家视觉语言模型

POINTS-Yi-1.5-9B-Chat — 视觉语言模型的最新进展，集成微信AI的新技术

POINTS-Qwen-2-5-7B-Chat — 视觉语言模型的最新进展

POINTS-1-5-Qwen-2-5-7B-Chat — 领先视觉语言模型，支持双语及高质量控制，免费。

DeepSeek-VL2 — 先进的多模态理解模型，融合视觉与语言能力。

OpenGVLab InternVL — 一款AI视觉语言模型，提供图像分析和描述服务。

Florence-VL — 视觉语言模型增强工具，结合生成式视觉编码器和深度广度融合技术。

Qwen2-VL-7B — Qwen2-VL-7B是最新的视觉语言模型，支持多模态理解和文本生成。

Qwen2-VL-2B — 最先进的视觉语言模型，支持多模态理解和文本生成。

PaliGemma 2 — PaliGemma 2是功能强大的视觉语言模型，简单易调优。

SmolVLM — 高效开源的视觉语言模型

LLaVA-o1 — 视觉语言模型，能够进行逐步推理

Aquila-VL-2B-llava-qwen — 视觉语言模型，结合图像和文本信息进行智能处理。

PromptFix — 根据人类指令修复和编辑照片的框架