Qwen2-VL-72B

Das neueste visuelle Sprachmodell mit Unterstützung für mehrsprachiges und multimodales Verständnis.

Normales ProduktBildVisuelles VerständnisVideo-Frage-Antwort
Qwen2-VL-72B ist die neueste Iteration des Qwen-VL-Modells und repräsentiert die Innovationsfortschritte des letzten Jahres. Das Modell erzielt aktuell Spitzenergebnisse in visuellen Verständnis-Benchmarktests wie MathVista, DocVQA, RealWorldQA und MTVQA. Es kann Videos mit einer Länge von über 20 Minuten verstehen und lässt sich in mobile Geräte und Roboter integrieren, um automatisierte Aktionen basierend auf der visuellen Umgebung und Textanweisungen durchzuführen. Neben Englisch und Chinesisch unterstützt Qwen2-VL jetzt auch das Verständnis mehrsprachiger Texte in Bildern, darunter die meisten europäischen Sprachen, Japanisch, Koreanisch, Arabisch und Vietnamesisch. Architektur-Updates wie Naive Dynamic Resolution und Multimodal Rotary Position Embedding (M-ROPE) verbessern seine multimodale Verarbeitungsfähigkeit.
Website öffnen

Qwen2-VL-72B Neueste Verkehrssituation

Monatliche Gesamtbesuche

29742941

Absprungrate

44.20%

Durchschnittliche Seiten pro Besuch

5.9

Durchschnittliche Besuchsdauer

00:04:44

Qwen2-VL-72B Besuchstrend

Qwen2-VL-72B Geografische Verteilung der Besuche

Qwen2-VL-72B Traffic-Quellen

Qwen2-VL-72B Alternativen