Qwen-VL
Modèle linguistique visuel polyvalent
Produit OrdinaireProductivitéVisionModèle linguistique
Qwen-VL est un modèle linguistique visuel polyvalent lancé par Alibaba Cloud, doté de puissantes capacités de compréhension visuelle et de raisonnement multimodale. Il prend en charge des tâches telles que la description d'images à échantillon nul, la question-réponse visuelle, la compréhension de texte, la localisation de points de repère d'images, et atteint ou dépasse les meilleurs résultats actuels sur plusieurs tests de référence visuels. Ce modèle utilise une architecture Transformer, pré-entraîné avec 7 milliards de paramètres, prenant en charge une résolution de 448x448 et capable de traiter de manière end-to-end des entrées et sorties multimodales d'images et de texte. Les avantages de Qwen-VL incluent une forte polyvalence, la prise en charge de plusieurs langues et une compréhension granulaire. Il peut être largement utilisé pour la compréhension d'images, la question-réponse visuelle, l'annotation d'images et la génération d'images et de texte.
Qwen-VL Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34