Qwen2-VL-72B
Modèle linguistique visuel de pointe, prenant en charge la compréhension multilingue et multimodale
Produit OrdinaireImageCompréhension visuelleQ\u0026R vidéo
Qwen2-VL-72B est la dernière itération du modèle Qwen-VL, représentant les progrès innovants de la dernière année. Ce modèle a atteint des performances de pointe sur les benchmarks de compréhension visuelle, notamment MathVista, DocVQA, RealWorldQA et MTVQA. Il est capable de comprendre des vidéos de plus de 20 minutes et peut être intégré à des appareils tels que des téléphones portables et des robots pour effectuer des opérations automatisées basées sur l'environnement visuel et des instructions textuelles. Au-delà de l'anglais et du chinois, Qwen2-VL prend désormais en charge la compréhension de texte dans différentes langues présentes sur les images, notamment la plupart des langues européennes, le japonais, le coréen, l'arabe et le vietnamien. Les mises à jour de l'architecture du modèle incluent la résolution dynamique naïve (Naive Dynamic Resolution) et l'intégration positionnelle rotative multimodale (Multimodal Rotary Position Embedding - M-ROPE), améliorant ainsi ses capacités de traitement multimodal.
Qwen2-VL-72B Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44