La division cloud computing d'Alibaba vient de lancer un nouveau modèle d'IA : Qwen2-VL. La force de ce modèle réside dans sa capacité à comprendre le contenu visuel, y compris les images et les vidéos, et même à analyser en temps réel des vidéos d'une durée allant jusqu'à 20 minutes. Impressionnant !

image.png

Accès au produit : https://qwenlm.github.io/blog/qwen2-vl/

Comparé à d'autres modèles de pointe (tels que Llama3.1 de Meta, GPT-4o d'OpenAI, Claude3Haiku d'Anthropic et Gemini-1.5Flash de Google), il affiche d'excellents résultats lors de tests comparatifs tiers.

Alibaba a évalué les capacités visuelles du modèle selon six critères clés : résolution de problèmes complexes de niveau universitaire, compétences mathématiques, compréhension de documents et de tableaux, compréhension d'images et de textes multilingues, questions-réponses en scénarios généraux, compréhension vidéo et interaction basée sur des agents. Son modèle 72B a démontré des performances de pointe sur la plupart des indicateurs, surpassant même des modèles propriétaires tels que GPT-4o et Claude 3.5-Sonnet. Il est particulièrement remarquable pour sa capacité de compréhension de documents.

image.png

Capacités d'analyse d'images et de vidéos exceptionnelles

Qwen2-VL vise à améliorer notre capacité à comprendre et à traiter les données visuelles. Il est capable non seulement d'analyser des images statiques, mais aussi de résumer le contenu des vidéos, de répondre aux questions qui y sont liées et même de fournir un support de chat en ligne en temps réel.

Comme l'indique l'équipe de recherche Qwen dans son article de blog sur GitHub concernant la nouvelle série de modèles Qwen2-VL : « Outre les images statiques, Qwen2-VL étend ses capacités à l'analyse de contenu vidéo. Il peut résumer le contenu vidéo, répondre aux questions qui y sont liées et maintenir un flux de conversation continu en temps réel, offrant un support de chat en temps réel. Cette fonctionnalité lui permet de servir d'assistant personnel, en aidant les utilisateurs en fournissant des informations et des idées extraites directement du contenu vidéo. »

Plus important encore, l'équipe affirme qu'il peut analyser des vidéos de plus de 20 minutes et répondre aux questions concernant leur contenu. Cela signifie que Qwen2-VL peut être un atout précieux pour l'apprentissage en ligne, le support technique ou toute situation nécessitant une compréhension du contenu vidéo. L'équipe a également présenté un exemple du nouveau modèle analysant et décrivant correctement la vidéo suivante :

De plus, Qwen2-VL possède de solides capacités linguistiques, prenant en charge l'anglais, le chinois et plusieurs langues européennes, ainsi que le japonais, le coréen, l'arabe et le vietnamien, permettant à des utilisateurs du monde entier de l'utiliser facilement. Pour une meilleure compréhension de ses capacités, Alibaba a également partagé des exemples d'applications sur son GitHub.

Trois versions

Ce nouveau modèle est disponible en trois versions avec différents nombres de paramètres : Qwen2-VL-72B (72 milliards de paramètres), Qwen2-VL-7B et Qwen2-VL-2B. Les versions 7B et 2B sont disponibles sous la licence Apache 2.0 ouverte et permissive, permettant aux entreprises de les utiliser librement à des fins commerciales.

Cependant, la plus grande version 72B n'est pas encore publique et n'est accessible que via une licence et une API spécifiques.

En outre, Qwen2-VL intègre de nouvelles fonctionnalités techniques, telles que la prise en charge de la résolution dynamique naïve, permettant de traiter des images de différentes résolutions pour garantir la cohérence et la précision de l'interprétation visuelle, et le système Multimodal Rotary Position Embedding (M-ROPE), capable de capturer et d'intégrer simultanément les informations de position entre le texte, les images et les vidéos.

Le lancement de Qwen2-VL marque une nouvelle avancée dans la technologie des modèles linguistiques visuels. L'équipe Qwen d'Alibaba a déclaré qu'elle continuerait à améliorer les fonctionnalités de ces modèles et à explorer de nouveaux cas d'utilisation.

Points clés :

🌟 **Capacités d'analyse vidéo exceptionnelles** : capable d'analyser en temps réel des vidéos de plus de 20 minutes et de répondre aux questions qui y sont liées !

✅ 🌍 **Prise en charge multilingue** : prend en charge plusieurs langues, permettant une utilisation facile aux utilisateurs du monde entier !

✅ 📦 **Versions open source disponibles** : les versions 7B et 2B sont open source, les entreprises peuvent les utiliser librement, idéal pour les équipes innovantes !