Qwen2-VL-2B
Spitzenmodell für visuelle Sprachmodelle, unterstützt multimodales Verständnis und Textgenerierung.
Normales ProduktBildVisuelles SprachmodellMultimodal
Qwen2-VL-2B ist die neueste Iteration des Qwen-VL-Modells und repräsentiert die Innovationen des letzten Jahres. Das Modell erzielt in Benchmarks für visuelles Verständnis, darunter MathVista, DocVQA, RealWorldQA und MTVQA, state-of-the-art Ergebnisse. Es kann Videos mit einer Länge von über 20 Minuten verstehen und bietet qualitativ hochwertige Unterstützung für die Beantwortung von videobasierten Fragen, Dialogführung und Content-Erstellung. Qwen2-VL unterstützt außerdem mehrere Sprachen, neben Englisch und Chinesisch auch die meisten europäischen Sprachen, Japanisch, Koreanisch, Arabisch und Vietnamesisch. Zu den Aktualisierungen der Modellarchitektur gehören Naive Dynamic Resolution und Multimodal Rotary Position Embedding (M-ROPE), die die multimodale Verarbeitungsfähigkeit verbessern.
Qwen2-VL-2B Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44