CogVLM

Poderoso modelo de lenguaje visual de código abierto

Producto ComúnImagenModelo de lenguaje visualDescripción de imágenes

CogVLM es un potente modelo de lenguaje visual de código abierto. CogVLM-17B cuenta con 10.000 millones de parámetros visuales y 7.000 millones de parámetros lingüísticos. CogVLM-17B ha alcanzado un rendimiento de vanguardia en 10 conjuntos de datos de evaluación clásicos de modalidades cruzadas, incluyendo NoCaps, subtitulación Flicker30k, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA y TDIUC, y ocupa el segundo lugar en VQAv2, OKVQA, TextVQA y subtitulación COCO, superando o igualando a PaLI-X 55B. CogVLM también puede conversar contigo sobre imágenes.

Describir con precisión los detalles de una imagen
Responder a preguntas de diversos tipos
Localización visual

Para la descripción de imágenes
respuesta a preguntas y localización visual

Utilizar CogVLM para describir con precisión los detalles de una imagen
Utilizar CogVLM para responder a preguntas de diversos tipos
Utilizar CogVLM para la localización visual

Abrir sitio web

CogVLM Situación del tráfico más reciente

Total de visitas mensuales

474564576

Tasa de rebote

36.20%

Páginas promedio por visita

6.1

Duración promedio de la visita

00:06:34

CogVLM Tendencia de visitas

CogVLM Distribución geográfica de las visitas

Best AI Websites & Tools

CogVLM

CogVLM Situación del tráfico más reciente

CogVLM Tendencia de visitas

CogVLM Distribución geográfica de las visitas

CogVLM Fuentes de tráfico

CogVLM Alternativas

CogVLM — Poderoso modelo de lenguaje visual de código abierto

Aya Vision 8B — Modelo de lenguaje visual multilingüe de 800 millones de parámetros, compatible con OCR, descripción de imágenes, razonamiento visual, etc.

PaliGemma2-3b-pt-224 — PaliGemma 2 es un potente modelo de lenguaje visual que admite tareas de procesamiento de imágenes y texto en varios idiomas.

PaliGemma2-3b-pt-448 — PaliGemma 2 es un potente modelo de lenguaje visual que admite diversas tareas de lenguaje visual.

PixelProse — Conjunto de datos de descripción de imágenes a gran escala, que proporciona más de 16 millones de descripciones de imágenes sintéticas.

Aya Vision 32B — Aya Vision 32B es un modelo de lenguaje visual multilingüe, adecuado para OCR, descripción de imágenes, razonamiento visual y otros usos.

VLM-R1 — VLM-R1 es un modelo de lenguaje visual reforzado estable y versátil, enfocado en tareas de comprensión visual.

MILS — Los modelos lingüísticos de gran tamaño (LLM) pueden ver y oír sin necesidad de entrenamiento previo.

SmolVLM-500M-Instruct — SmolVLM-500M es un modelo multimodal ligero que puede procesar entradas de imagen y texto y generar salidas de texto.

Ollama OCR para web — Un potente paquete OCR que utiliza modelos de lenguaje visual de vanguardia para extraer texto de imágenes.

Moondream AI — Modelo de lenguaje visual de código abierto que se ejecuta en varios dispositivos.

InternVL2_5-26B-MPO — Modelo de lenguaje grande multimodales que mejora la interacción entre la visión y el lenguaje.

Aria-UI — Modelo multimodal para la localización visual de instrucciones de GUI

Generador inteligente de descripciones de imágenes — Utiliza tecnología inteligente para generar descripciones contextuales de imágenes.

cogagent-9b-20241220 — CogAgent-9B-20241220 es un modelo de agente GUI basado en un modelo de lenguaje visual.

CogAgent — Agente GUI basado en el modelo de lenguaje visual de extremo a extremo (VLM) de código abierto

InternVL2_5-1B-MPO — Modelo de lenguaje grande multimodal que mejora la comprensión integral de la visión y el lenguaje.

PicWordify — Automatización de la generación de texto descriptivo para imágenes de sitios web

DeepSeek-VL2-Small — Modelo de lenguaje visual avanzado de gran tamaño y experto mixto

DeepSeek-VL2-Tiny — Modelo de lenguaje visual avanzado de gran tamaño y experto mixto

POINTS-Yi-1.5-9B-Chat — Los últimos avances en modelos de lenguaje visual, integrando la nueva tecnología de WeChat AI.

POINTS-Qwen-2-5-7B-Chat — Los últimos avances en modelos de lenguaje visual

POINTS-1-5-Qwen-2-5-7B-Chat — Modelo de lenguaje visual líder, admite bilingüismo y control de alta calidad, gratuito.

DeepSeek-VL2 — Modelo de comprensión multimodal avanzado que integra capacidades visuales y lingüísticas.

OpenGVLab InternVL — Un modelo de lenguaje visual de IA que proporciona servicios de análisis y descripción de imágenes.

Florence-VL — Herramienta de mejora de modelos de lenguaje visual, que combina un codificador visual generativo y una técnica de fusión de profundidad y amplitud.

Qwen2-VL-7B — Qwen2-VL-7B es el último modelo de lenguaje visual, que admite la comprensión multimodal y la generación de texto.

Qwen2-VL-2B — Modelo de lenguaje visual líder en el sector, que admite la comprensión multimodal y la generación de texto.

PaliGemma 2 — PaliGemma 2 es un potente modelo de lenguaje visual, fácil de ajustar.

SmolVLM — Modelo de lenguaje visual eficiente y de código abierto