L'équipe d'Alibaba Tongyi Qianwen lance le modèle Qwen2-VL, prenant en charge l'analyse vidéo dynamique en temps réel

L'équipe de Tongyi Qianwen du laboratoire de recherche d'Alibaba, le Darmoyuan, a annoncé le 30 août 2024 une mise à jour majeure de son dernier modèle : Qwen2-VL. Ce modèle affiche des améliorations significatives en matière de compréhension d'images, de traitement vidéo et de prise en charge multilingue, établissant de nouvelles références pour les indicateurs de performance clés.

Les nouvelles fonctionnalités de Qwen2-VL incluent : une capacité améliorée de compréhension d'images, permettant une interprétation plus précise des informations visuelles ; une capacité avancée de compréhension vidéo, permettant une analyse en temps réel du contenu vidéo dynamique ; une fonction d'agent visuel intégrée, transformant le modèle en un puissant agent capable de réaliser des raisonnements et des prises de décision complexes ; et une prise en charge multilingue étendue, le rendant plus accessible et efficace dans différents contextes linguistiques.

微信截图_20240830075330.png

Sur le plan de l'architecture technique, Qwen2-VL prend en charge les résolutions dynamiques, permettant de traiter des images de n'importe quelle résolution sans les diviser en blocs, garantissant ainsi la cohérence entre l'entrée du modèle et les informations intrinsèques de l'image. De plus, l'innovation de l'intégration de position rotative multimodale (M-ROPE) permet au modèle de capturer et d'intégrer simultanément les informations de position du texte 1D, de la vision 2D et de la vidéo 3D.

Le modèle Qwen2-VL-7B, avec ses 7 milliards de paramètres, conserve la prise en charge des entrées image, multi-images et vidéo, et excelle dans les tâches de compréhension de documents et de compréhension de texte multilingue d'images.

L'équipe a également lancé un modèle de 2 milliards de paramètres optimisé pour le déploiement mobile. Malgré sa taille réduite, il offre des performances exceptionnelles en matière de compréhension d'images, de vidéos et de langues multiples.

Liens vers les modèles :

Qwen2-VL-2B-Instruct : https://www.modelscope.cn/models/qwen/Qwen2-VL-2B-Instruct

Qwen2-VL-7B-Instruct : https://www.modelscope.cn/models/qwen/Qwen2-VL-7B-Instruct

Actualités IA

L'équipe d'Alibaba Tongyi Qianwen lance le modèle Qwen2-VL, prenant en charge l'analyse vidéo dynamique en temps réel

AIbase基地