Alibaba Cloud publie en open source Qwen-VL, un grand modèle multimodal

亿邦动力

Publié leActualités IA · 2 minutes de lecture · Aug 25, 2023

Le 25 août, Alibaba Cloud a lancé Qwen-VL, un modèle linguistique visuel à grande échelle prenant en charge plusieurs langues, dont le chinois et l'anglais, et doté d'une capacité de compréhension conjointe du texte et des images. Basé sur le modèle linguistique général Qwen-7B précédemment open-sourcé par Alibaba Cloud, Qwen-VL ajoute des fonctionnalités telles que la localisation visuelle et la compréhension du texte dans les images, par rapport à d'autres modèles linguistiques visuels. Qwen-VL a déjà recueilli plus de 3400 étoiles sur GitHub et a été téléchargé plus de 400 000 fois. Les modèles linguistiques visuels sont considérés comme une direction importante de l'évolution de l'IA générale. Le secteur estime que les modèles prenant en charge les entrées multimodales peuvent améliorer la compréhension du monde et élargir les scénarios d'utilisation. Alibaba Cloud, grâce à l'open-source de Qwen-VL, contribue à faire progresser davantage les technologies de l'IA générale.

Petit mais puissant ! H2O.ai lance de nouveaux modèles de vision par IA surpassant les géants de la technologie dans le domaine de l'analyse de documents

H2O.ai a récemment annoncé le lancement de deux nouveaux modèles de langage visuel conçus pour améliorer l'efficacité des tâches d'analyse de documents et de reconnaissance optique de caractères (OCR). Ces deux modèles, H2OVL Mississippi-2B et H2OVL-Mississippi-0.8B, affichent des performances remarquables par rapport aux modèles des grandes entreprises technologiques, offrant potentiellement des solutions plus efficaces aux entreprises confrontées à des flux de travail de traitement de documents importants. H2OVL Mississipp

CogAgent : un nouveau modèle de langage visuel développé par l'Université Tsinghua pour une compréhension et une navigation approfondies des interfaces graphiques

L'équipe d'IA de l'Université Tsinghua a publié CogAgent, un nouveau modèle de langage visuel axé sur la compréhension et la navigation des interfaces graphiques utilisateur (GUI). CogAgent utilise un système à double encodeur pour traiter les éléments GUI et le texte complexes, et excelle dans le traitement des entrées haute résolution de 1120x1120 pixels. Le modèle surpasse les méthodes LLM existantes dans les tâches de navigation GUI sur PC et Android, tout en affichant d'excellentes performances sur les benchmarks de questions-réponses texte et visuelles. Les applications potentielles incluent l'automatisation des GUI.

Actualités IA

Alibaba Cloud publie en open source Qwen-VL, un grand modèle multimodal

亿邦动力

Recommandations d'actualités IA connexes

Petit mais puissant ! H2O.ai lance de nouveaux modèles de vision par IA surpassant les géants de la technologie dans le domaine de l'analyse de documents

CogAgent : un nouveau modèle de langage visuel développé par l'Université Tsinghua pour une compréhension et une navigation approfondies des interfaces graphiques