Le 25 août, Alibaba Cloud a lancé Qwen-VL, un modèle linguistique visuel à grande échelle prenant en charge plusieurs langues, dont le chinois et l'anglais, et doté d'une capacité de compréhension conjointe du texte et des images. Basé sur le modèle linguistique général Qwen-7B précédemment open-sourcé par Alibaba Cloud, Qwen-VL ajoute des fonctionnalités telles que la localisation visuelle et la compréhension du texte dans les images, par rapport à d'autres modèles linguistiques visuels. Qwen-VL a déjà recueilli plus de 3400 étoiles sur GitHub et a été téléchargé plus de 400 000 fois. Les modèles linguistiques visuels sont considérés comme une direction importante de l'évolution de l'IA générale. Le secteur estime que les modèles prenant en charge les entrées multimodales peuvent améliorer la compréhension du monde et élargir les scénarios d'utilisation. Alibaba Cloud, grâce à l'open-source de Qwen-VL, contribue à faire progresser davantage les technologies de l'IA générale.
Alibaba Cloud publie en open source Qwen-VL, un grand modèle multimodal

亿邦动力
Cet article provient d'AIbase Daily
Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.