CogVLM

Leistungsstarkes Open-Source-visuelles Sprachmodell

Normales ProduktBildVisuelles SprachmodellBildbeschreibung

CogVLM ist ein leistungsstarkes Open-Source-visuelles Sprachmodell. CogVLM-17B verfügt über 10 Milliarden visuelle Parameter und 7 Milliarden Sprachparameter. CogVLM-17B erzielte in 10 klassischen multimodalen Benchmark-Tests State-of-the-Art-Ergebnisse, darunter NoCaps, Flicker30k Captions, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA und TDIUC, und erreichte in VQAv2, OKVQA, TextVQA und COCO Captions einen zweiten Platz, wobei es PaLI-X 55B übertraf oder mit diesem vergleichbar war. CogVLM kann auch mit Ihnen über Bilder ins Gespräch kommen.

Genaue Beschreibung von Bilddetails
Beantwortung verschiedener Arten von Fragen
Visuelle Lokalisierung

Zur Bildbeschreibung
Fragenbeantwortung und visuellen Lokalisierung

Verwendung von CogVLM zur genauen Beschreibung von Bilddetails
Verwendung von CogVLM zur Beantwortung verschiedener Arten von Fragen
Verwendung von CogVLM zur visuellen Lokalisierung

Website öffnen

CogVLM Neueste Verkehrssituation

Monatliche Gesamtbesuche

474564576

Absprungrate

36.20%

Durchschnittliche Seiten pro Besuch

6.1

Durchschnittliche Besuchsdauer

00:06:34

CogVLM Besuchstrend

CogVLM Geografische Verteilung der Besuche

Best AI Websites & Tools

CogVLM

CogVLM Neueste Verkehrssituation

CogVLM Besuchstrend

CogVLM Geografische Verteilung der Besuche

CogVLM Traffic-Quellen

CogVLM Alternativen

CogVLM — Leistungsstarkes Open-Source-visuelles Sprachmodell

Aya Vision 32B — Aya Vision 32B ist ein mehrsprachiges visuell-sprachliches Modell, das für OCR, Bildbeschreibung, visuelles Schließen und andere Zwecke geeignet ist.

MILS — LLMs können sehen und hören, ohne dafür trainiert zu werden.

SmolVLM-500M-Instruct — SmolVLM-500M ist ein leichtgewichtiges multimodales Modell, das Bild- und Texteingaben verarbeiten und Textausgaben generieren kann.

Ollama OCR für Web — Ein leistungsstarkes OCR-Paket, das mithilfe modernster visueller Sprachmodelle Text aus Bildern extrahiert.

Moondream AI — Open-Source-visuelles Sprachmodell, lauffähig auf verschiedenen Geräten.

PaliGemma2-3b-pt-224 — PaliGemma 2 ist ein leistungsstarkes visuell-sprachliches Modell, das Bild- und Textverarbeitungsaufgaben in verschiedenen Sprachen unterstützt.

PaliGemma2-3b-pt-448 — PaliGemma 2 ist ein leistungsstarkes visuell-linguistisches Modell, das verschiedene visuell-linguistische Aufgaben unterstützt.

InternVL2_5-26B-MPO — Großes multimodaler Sprachmodell, das die Interaktion zwischen visuellen und sprachlichen Informationen verbessert.

Aria-UI — Multimodales Modell zur visuellen Lokalisierung von GUI-Anweisungen

Intelligenter Bildbeschreibungsgenerator — Generiert mithilfe intelligenter Technologie kontextbezogene Beschreibungen für Bilder.

CogAgent-9B-20241220 — CogAgent-9B-20241220 ist ein auf visuellen Sprachmodellen basierendes GUI-Agentenmodell.

vision-parse — Wandelt PDF-Dateien mithilfe eines visuellen Sprachmodells in Markdown um.

CogAgent — Open-Source GUI-Agent basierend auf einem End-to-End visuellen Sprachmodell (VLM)

InternVL2_5-1B-MPO — Multimodales großes Sprachmodell zur Verbesserung des umfassenden Verständnisses von visuellen und sprachlichen Informationen.

PicWordify — Automatische Generierung beschreibender Texte für Website-Bilder

DeepSeek-VL2-Small — Ein fortschrittliches, großes visuelles Sprachmodell mit Mixture-of-Experts (MoE)-Architektur

DeepSeek-VL2-Tiny — Fortgeschrittenes großes visuelles Sprachmodell mit Mixture-of-Experts (MoE)

POINTS-Yi-1.5-9B-Chat — Neueste Fortschritte im Bereich visueller Sprachmodelle, integriert mit neuen Technologien von WeChat AI.

POINTS-Qwen-2-5-7B-Chat — Neueste Fortschritte bei visuellen Sprachmodellen

Qwen2-VL-2B — Spitzenmodell für visuelle Sprachmodelle, unterstützt multimodales Verständnis und Textgenerierung.

SmolVLM — Effizientes, quelloffenes visuelles Sprachmodell

joy-caption-batch — Ein Tool zur Erstellung beschreibender Titel für Bilddateien im Batch-Verfahren.

VisRAG — Ein visuell-sprachliches Modell zur retrieval-augmented Generierung (RAG)

Solvr — Solvr AI: Mühelose Problemlösung.

KI-Bilderbeschreibung — KI-basierte schnelle Bilderzeugung von Beschreibungen

Qwen2-VL — Die neue Generation visueller Sprachmodelle – die Welt noch klarer sehen.

Bildbeschreibungsgenerator — Intelligenter Bildbeschreibungsgenerator mit 50 kostenlosen Nutzungen pro Tag.

image-textualization — Automatische Generierung detaillierter und aussagekräftiger Bildbeschreibungen.

InternLM-XComposer-2.5 — Ein multifunktionales, großes visuelles Sprachmodell