Qwen2-VL-2B
Modèle linguistique visuel de pointe, prenant en charge la compréhension multimodale et la génération de texte.
Produit OrdinaireImageModèle linguistique visuelMultimodal
Qwen2-VL-2B est la dernière itération du modèle Qwen-VL, représentant les innovations de la dernière année. Ce modèle a atteint des performances de pointe dans les tests de référence de compréhension visuelle, notamment MathVista, DocVQA, RealWorldQA et MTVQA. Il est capable de comprendre des vidéos de plus de 20 minutes, offrant un support de haute qualité pour la réponse aux questions basées sur la vidéo, la conversation et la création de contenu. Qwen2-VL prend également en charge plusieurs langues, outre l'anglais et le chinois, il inclut la plupart des langues européennes, le japonais, le coréen, l'arabe et le vietnamien. Les mises à jour de l'architecture du modèle incluent la résolution dynamique naïve et l'intégration de position rotative multimodale (M-ROPE), améliorant ainsi ses capacités de traitement multimodal.
Qwen2-VL-2B Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44