Qwen2-VL-2B

Modèle linguistique visuel de pointe, prenant en charge la compréhension multimodale et la génération de texte.

Produit OrdinaireImageModèle linguistique visuelMultimodal
Qwen2-VL-2B est la dernière itération du modèle Qwen-VL, représentant les innovations de la dernière année. Ce modèle a atteint des performances de pointe dans les tests de référence de compréhension visuelle, notamment MathVista, DocVQA, RealWorldQA et MTVQA. Il est capable de comprendre des vidéos de plus de 20 minutes, offrant un support de haute qualité pour la réponse aux questions basées sur la vidéo, la conversation et la création de contenu. Qwen2-VL prend également en charge plusieurs langues, outre l'anglais et le chinois, il inclut la plupart des langues européennes, le japonais, le coréen, l'arabe et le vietnamien. Les mises à jour de l'architecture du modèle incluent la résolution dynamique naïve et l'intégration de position rotative multimodale (M-ROPE), améliorant ainsi ses capacités de traitement multimodal.
Ouvrir le site Web

Qwen2-VL-2B Dernière situation du trafic

Nombre total de visites mensuelles

29742941

Taux de rebond

44.20%

Nombre moyen de pages par visite

5.9

Durée moyenne de la visite

00:04:44

Qwen2-VL-2B Tendance des visites

Qwen2-VL-2B Distribution géographique des visites

Qwen2-VL-2B Sources de trafic

Qwen2-VL-2B Alternatives