Qwen-VL

Universelles visuell-sprachliches Modell

Normales ProduktProduktivitätVisuellSprachmodell

Qwen-VL ist ein von Alibaba Cloud entwickeltes universelles visuell-sprachliches Modell mit starken Fähigkeiten im visuellen Verständnis und multimodalen Schließen. Es unterstützt Aufgaben wie Zero-Shot-Bildbeschreibung, visuelle Fragebeantwortung, Textverständnis und Lokalisierung von Bildmerkmalen und erreicht oder übertrifft in mehreren visuellen Benchmark-Tests den aktuellen Stand der Technik. Das Modell verwendet eine Transformer-Architektur, wurde mit 7 Milliarden Parametern vortrainiert, unterstützt eine Auflösung von 448x448 und kann multimodalen Input und Output aus Bild und Text End-to-End verarbeiten. Zu den Stärken von Qwen-VL gehören seine hohe Universalität, die mehrsprachige Unterstützung und das detaillierte Verständnis. Es kann breit gefächert in Anwendungen wie Bildverständnis, visuelle Fragebeantwortung, Bildannotation und Bild-Text-Generierung eingesetzt werden.

Best AI Websites & Tools

Qwen-VL

Qwen-VL Neueste Verkehrssituation

Qwen-VL Besuchstrend

Qwen-VL Geografische Verteilung der Besuche

Qwen-VL Traffic-Quellen

Qwen-VL Alternativen

Qwen-VL — Universelles visuell-sprachliches Modell

MiniCPM-o — MiniCPM-o 2.6: Ein MLLM (Multimodales Large Language Model) auf GPT-4o-Niveau, das visuelle, sprachliche und multimodale Livestreaming auf Smartphones ermöglicht.

Honeybee — Lokaler Verstärker für die Vorhersage in multimodalen Sprachmodellen

DeepSeek Japanisch — DeepSeek ist ein fortschrittliches KI-Sprachmodell, das sich auf logisches Denken, Mathematik und Programmieraufgaben spezialisiert hat und kostenlos nutzbar ist.

Janus-Pro-1B — Janus-Pro-1B ist ein einheitliches, multimodales, autoregressives Framework für Verständnis und Generierung.

MiniCPM-o-2_6 — MiniCPM-o 2.6 ist ein leistungsstarkes, multimodales großes Sprachmodell, das sich für visuelle, sprachbasierte und multimodale Live-Übertragungen eignet.

Die Sprache der Bewegung — Ein einheitliches Modell für verbale und nonverbale Sprache in 3D-menschlichen Bewegungen

OLMo 2 13B — Hochleistungsfähiges Sprachmodell für englischsprachige akademische Benchmarks

MobileLLM-1B — Von Meta entwickeltes Sprachmodell mit unter einer Milliarde Parametern, geeignet für die Verwendung auf Geräten.

MobileLLM-600M — Hochoptimiertes Sprachmodell mit 600 Millionen Parametern, speziell für die Verwendung auf Geräten entwickelt.

MobileLLM-350M — Hochoptimiertes Sprachmodell mit weniger als einer Milliarde Parametern, speziell für die Verwendung auf Geräten entwickelt.

Spirit LM — Multimodales Sprachmodell, das Text und Sprache integriert

ACE: Allrounder-Creator und -Editor nach Anweisungen via Diffusions-Transformer — Ein vielseitiger Creator und Editor, der Anweisungen über Diffusions-Transformationen befolgt.

ell — Leichtgewichtige Programmbibliothek für Sprachmodelle, die Prompts als Funktionen behandelt.

DCLM-7B — Ein Sprachmodell mit 700 Millionen Parametern, das die Effektivität von Datenaufbereitungstechniken demonstriert.

Enchanted — iOS/macOS-App zum Dialog mit privaten, selbst gehosteten Sprachmodellen

VideoLLaMA2-7B — Großes Video-Sprachmodell, das visuelle Frage-Antwort-Systeme und die automatische Video-Untertitelung bietet.

VideoLLaMA2-7B-16F-Base — Großes Video-Sprachmodell für visuelle Frage-Antwort-Systeme und die Generierung von Videounterschriften.

Phi-3-Vision-128k-Instruct — Ein leichtgewichtiges, hochmodernes multimodales Modell von Microsoft, das sich auf hochwertige, inferenzdichte Daten für Text und visuelle Eingaben konzentriert.

LLM Transparenz-Tool — Analyse der internen Funktionsweise von Transformer-Sprachmodellen

imp-v1-3b — Ein leistungsstarkes multimodales kleines Sprachmodell

SpeechGPT — Multimodales Sprachmodell

Lepton-Suche — Lepton ist eine Open-Source-Plattform zur Suche nach Sprachmodellen.

moondream — Ein leistungsstarkes, kleines visuelles Sprachmodell – überall einsetzbar.

TinyGPT-V — Effizientes multimodales großes Sprachmodell

Unified-IO 2 — Ein einheitliches multimodales Generierungsmodell

InternVL — Open-Source-Grundmodell für visuelle Wahrnehmung

ml-ferret — End-to-End MLLM für präzise Referenzierung und Lokalisierung

Megatron-LM — Kontinuierliche Forschung zur Entwicklung und zum Training großer Transformer-Modelle

CLoT — Entdecken Sie das kreative und humorvolle Potenzial großer Sprachmodelle.