Alibaba Cloud publie en open source Qwen-VL, un grand modèle multimodal

亿邦动力

Publié leActualités IA · 2 minutes de lecture · Aug 25, 2023

Le 25 août, Alibaba Cloud a lancé Qwen-VL, un modèle linguistique visuel à grande échelle prenant en charge plusieurs langues, dont le chinois et l'anglais, et doté d'une capacité de compréhension conjointe du texte et des images. Basé sur le modèle linguistique général Qwen-7B précédemment open-sourcé par Alibaba Cloud, Qwen-VL ajoute des fonctionnalités telles que la localisation visuelle et la compréhension du texte dans les images, par rapport à d'autres modèles linguistiques visuels. Qwen-VL a déjà recueilli plus de 3400 étoiles sur GitHub et a été téléchargé plus de 400 000 fois. Les modèles linguistiques visuels sont considérés comme une direction importante de l'évolution de l'IA générale. Le secteur estime que les modèles prenant en charge les entrées multimodales peuvent améliorer la compréhension du monde et élargir les scénarios d'utilisation. Alibaba Cloud, grâce à l'open-source de Qwen-VL, contribue à faire progresser davantage les technologies de l'IA générale.

Alibaba Cloud IA générale Modèle de langage visuel

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily

Recommandations d'actualités IA connexes

Bulletin IA : Kunlun Wanwei publie les modèles Skywork-OR1 ; la plateforme de développement d'agents Xingchen de iFlytek prend entièrement en charge MCP ; Kimi publie le modèle de langage visuel Kimi-VL

Bienvenue dans la rubrique 【Bulletin IA】 ! Votre guide quotidien pour explorer le monde de l'intelligence artificielle. Chaque jour, nous vous présentons les actualités les plus importantes du domaine de l'IA, en nous concentrant sur les développeurs, pour vous aider à comprendre les tendances technologiques et les applications innovantes des produits IA. Découvrez les nouveaux produits IA : https://top.aibase.com/1、Kimi publie les modèles de langage visuel open source Kimi-VL et Kimi-VL-Thinking, surpassant GPT-4oMoonshot AI sur plusieurs benchmarks.

Apr 14, 2025

Petit mais puissant ! H2O.ai lance de nouveaux modèles de vision par IA surpassant les géants de la technologie dans le domaine de l'analyse de documents

H2O.ai a récemment annoncé le lancement de deux nouveaux modèles de langage visuel conçus pour améliorer l'efficacité des tâches d'analyse de documents et de reconnaissance optique de caractères (OCR). Ces deux modèles, H2OVL Mississippi-2B et H2OVL-Mississippi-0.8B, affichent des performances remarquables par rapport aux modèles des grandes entreprises technologiques, offrant potentiellement des solutions plus efficaces aux entreprises confrontées à des flux de travail de traitement de documents importants. H2OVL Mississipp

Oct 18, 2024

2.4k

Google AI lance ScreenAI : un modèle de langage visuel pour l'interprétation des interfaces utilisateur et des infographies

L'équipe Google AI a présenté ScreenAI, un modèle de langage visuel capable de comprendre de manière exhaustive les interfaces utilisateur et les infographies. ScreenAI excelle dans plusieurs tâches, notamment la question-réponse graphique, l'annotation d'éléments et la génération de résumés. L'équipe a publié trois nouveaux ensembles de données pour enrichir les futures recherches. En exploitant le langage visuel commun et les conceptions complexes, ScreenAI offre une approche complète pour comprendre le contenu numérique.

Feb 21, 2024

690

CogAgent : un nouveau modèle de langage visuel développé par l'Université Tsinghua pour une compréhension et une navigation approfondies des interfaces graphiques

L'équipe d'IA de l'Université Tsinghua a publié CogAgent, un nouveau modèle de langage visuel axé sur la compréhension et la navigation des interfaces graphiques utilisateur (GUI). CogAgent utilise un système à double encodeur pour traiter les éléments GUI et le texte complexes, et excelle dans le traitement des entrées haute résolution de 1120x1120 pixels. Le modèle surpasse les méthodes LLM existantes dans les tâches de navigation GUI sur PC et Android, tout en affichant d'excellentes performances sur les benchmarks de questions-réponses texte et visuelles. Les applications potentielles incluent l'automatisation des GUI.

Dec 27, 2023

1.1k

Les chercheurs chinois lancent CogVLM : un puissant modèle de base de langage visuel open source

CogVLM est un modèle de base de langage visuel open source développé par des chercheurs chinois. Il intègre en profondeur les informations linguistiques et visuelles, réalisant des progrès significatifs dans les tâches multimodales. Une nouvelle méthode d'entraînement est employée, introduisant un expert visuel entraînable pour améliorer la capacité de compréhension visuelle du modèle linguistique lors du pré-entraînement VLM, évitant ainsi les mauvaises performances des méthodes d'intégration profonde. CogVLM-17B excelle dans 14 benchmarks multimodaux, notamment le sous-titrage d'images et la question-réponse visuelle, ayant un impact positif sur la recherche en compréhension visuelle et les applications industrielles. CogVLM open source.

Nov 13, 2023

760

Actualités IA

IA Quotidien

Chronologie de l'IA

Al hardware

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu