Qwen2-VL-72B
Das neueste visuelle Sprachmodell mit Unterstützung für mehrsprachiges und multimodales Verständnis.
Normales ProduktBildVisuelles VerständnisVideo-Frage-Antwort
Qwen2-VL-72B ist die neueste Iteration des Qwen-VL-Modells und repräsentiert die Innovationsfortschritte des letzten Jahres. Das Modell erzielt aktuell Spitzenergebnisse in visuellen Verständnis-Benchmarktests wie MathVista, DocVQA, RealWorldQA und MTVQA. Es kann Videos mit einer Länge von über 20 Minuten verstehen und lässt sich in mobile Geräte und Roboter integrieren, um automatisierte Aktionen basierend auf der visuellen Umgebung und Textanweisungen durchzuführen. Neben Englisch und Chinesisch unterstützt Qwen2-VL jetzt auch das Verständnis mehrsprachiger Texte in Bildern, darunter die meisten europäischen Sprachen, Japanisch, Koreanisch, Arabisch und Vietnamesisch. Architektur-Updates wie Naive Dynamic Resolution und Multimodal Rotary Position Embedding (M-ROPE) verbessern seine multimodale Verarbeitungsfähigkeit.
Qwen2-VL-72B Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44