Le 2 septembre, Tongyi Qianwen a annoncé l'open source de son modèle linguistique visuel de deuxième génération, Qwen2-VL, et a lancé sur la plateforme Bailian d'Alibaba Cloud les API de deux modèles de tailles 2B et 7B, ainsi que leurs versions quantifiées, permettant aux utilisateurs de les appeler directement.

Le modèle Qwen2-VL a réalisé une amélioration significative des performances à plusieurs niveaux. Il est capable de comprendre des images de différentes résolutions et de différents rapports largeur/hauteur, et a obtenu des résultats de pointe au niveau mondial lors de tests de référence tels que DocVQA, RealWorldQA et MTVQA. De plus, ce modèle peut comprendre des vidéos longues de plus de 20 minutes et prend en charge des applications telles que les questions-réponses, les conversations et la création de contenu basées sur la vidéo. Qwen2-VL possède également de puissantes capacités d'agent visuel intelligent, capable de manipuler de manière autonome des téléphones et des robots, effectuant des raisonnements et des prises de décision complexes.

Ce modèle est capable de comprendre des textes multilingues dans les images et les vidéos, notamment le chinois, l'anglais, la plupart des langues européennes, le japonais, le coréen, l'arabe et le vietnamien. L'équipe Tongyi Qianwen a évalué les capacités du modèle selon six aspects : les questions d'examen universitaire complètes, les capacités mathématiques, la compréhension d'images de documents, de tableaux et de textes multilingues, les questions-réponses en scénarios généraux, la compréhension vidéo et les capacités d'agent.

微信截图_20240902141930.png

Qwen2-VL-72B, en tant que modèle phare, a atteint des performances optimales pour la plupart des indicateurs. Qwen2-VL-7B, avec sa taille de paramètres économique, a réalisé des performances extrêmement compétitives, tandis que Qwen2-VL-2B prend en charge les applications riches sur les appareils mobiles et possède des capacités complètes de compréhension d'images, de vidéos et de langues multiples.

En termes d'architecture du modèle, Qwen2-VL conserve la structure en série ViT + Qwen2. Les trois tailles de modèles utilisent un ViT de 600 M, prenant en charge l'entrée unifiée d'images et de vidéos. Afin d'améliorer la perception des informations visuelles et la capacité de compréhension vidéo du modèle, l'équipe a procédé à des améliorations architecturales, notamment la prise en charge complète de la résolution dynamique native et l'utilisation de la méthode d'intégration de position rotationnelle multimodale (M-ROPE).

La plateforme Bailian d'Alibaba Cloud fournit l'API de Qwen2-VL-72B, que les utilisateurs peuvent appeler directement. Simultanément, les codes sources de Qwen2-VL-2B et Qwen2-VL-7B ont été intégrés à Hugging Face Transformers, vLLM et d'autres frameworks tiers, permettant aux développeurs de télécharger et d'utiliser le modèle via ces plateformes.

Plateforme Bailian d'Alibaba Cloud :

https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api 

GitHub :

https://github.com/QwenLM/Qwen2-VL

HuggingFace :

https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d

魔搭ModelScope :

https://modelscope.cn/organization/qwen?tab=model

Expérience du modèle :

https://huggingface.co/spaces/Qwen/Qwen2-VL