Alibaba a récemment lancé QVQ-72B, un nouveau modèle d'inférence multimodale basé sur Qwen2-VL-72B. Ce modèle, combinant des capacités linguistiques et visuelles puissantes, est capable de gérer des tâches d'inférence et d'analyse plus complexes, marquant une nouvelle avancée d'Alibaba dans le domaine de l'IA multimodale.

QVQ-72B montre une amélioration significative dans le raisonnement visuel, les mathématiques et les problèmes scientifiques, en particulier dans les tâches d'inférence à plusieurs étapes. Cela signifie que le modèle peut non seulement comprendre des informations textuelles, mais aussi des informations visuelles, et résoudre des problèmes complexes grâce à un raisonnement en plusieurs étapes, une capacité hors de portée des modèles IA traditionnels.

image.png

L'un des points forts du modèle est sa capacité à combiner des informations textuelles et visuelles pour déduire les relations de cause à effet dans les problèmes de physique. Par exemple, il peut, à partir d'une image d'une scène physique et d'une description textuelle associée, déduire les relations de cause à effet de l'événement, démontrant ainsi une capacité de compréhension plus approfondie.

Dans les tâches de raisonnement mathématique (comme l'algèbre et le calcul), QVQ-72B réduit considérablement le taux d'erreur grâce à un raisonnement étape par étape. Cela indique que le modèle est capable non seulement d'effectuer des calculs simples, mais aussi des raisonnements mathématiques complexes, fournissant des étapes de résolution claires et offrant ainsi un nouvel outil pour résoudre des problèmes mathématiques complexes.

image.png

De plus, QVQ-72B présente une précision et une efficacité élevées pour extraire des informations clés dans les rapports techniques et l'analyse de graphiques complexes. Il peut extraire rapidement et précisément les informations clés de documents et de graphiques complexes, offrant ainsi un outil puissant pour les chercheurs, les analystes et autres professionnels.

En matière de reconnaissance d'images, QVQ-72B peut identifier précisément les détails des images, tels que la position des objets, les couleurs, les relations spatiales et les contextes complexes. Cela signifie que le modèle peut être appliqué à un large éventail de scénarios, tels que la surveillance intelligente et la conduite autonome.

En résumé, le modèle d'inférence multimodale QVQ-72B d'Alibaba, grâce à ses puissantes capacités visuelles, linguistiques et de raisonnement, offre de nouvelles pistes et de nouveaux outils pour résoudre des problèmes complexes. Son apparition stimulera sans aucun doute l'application de l'intelligence artificielle dans divers domaines et injectera une nouvelle dynamique à la modernisation intelligente de tous les secteurs.

Essai en ligne : https://huggingface.co/spaces/Qwen/QVQ-72B-preview

Présentation détaillée : https://qwenlm.github.io/blog/qvq-72b-preview/