Alibaba lance Qwen2.5-Omni, son premier grand modèle multimodal, et défie les géants mondiaux de la technologie

AIbase基地

Publié leActualités IA · 4 minutes de lecture · Mar 27, 2025

Le 27 mars, à l'aube, Alibaba a lancé son premier grand modèle multimodal : Tongyi Qianwen Qwen2.5-Omni-7B. Ce modèle puissant peut traiter simultanément plusieurs types d'entrées, notamment du texte, des images, de l'audio et de la vidéo, et générer du texte et de la parole naturelle en temps réel. Cette percée technologique innovante marque une nouvelle avancée d'Alibaba dans le domaine de l'intelligence artificielle.

Lors des tests OmniBench, une référence pour les tâches de fusion multimodales, Qwen2.5-Omni a obtenu des résultats remarquables, battant les records de l'industrie et surpassant largement des modèles similaires tels que Gemini-1.5-Pro de Google. Ce résultat met en évidence la puissance de Qwen2.5-Omni et consolide la position de leader d'Alibaba dans la compétition technologique mondiale.

Cerveau, Grand Modèle

Source : Image générée par IA, fournie par Midjourney

L'originalité de Qwen2.5-Omni réside dans sa capacité à simuler les sens humains, lui permettant de percevoir et de comprendre le monde de manière « tridimensionnelle », proche de la façon dont le font les humains. Cela signifie que Qwen2.5-Omni peut non seulement identifier divers types d'entrées, mais aussi analyser les émotions grâce à l'analyse audio et vidéo, offrant ainsi des réponses et des capacités décisionnelles plus intelligentes et naturelles face à des tâches complexes. Il en résulte une flexibilité et une adaptabilité accrues dans les applications concrètes.

Avec les progrès constants de l'IA, le lancement de Qwen2.5-Omni stimulera sans aucun doute le développement du secteur et apportera une nouvelle impulsion à la transformation numérique de divers secteurs. En open-sourçant ce grand modèle, Alibaba attire l'attention des développeurs du monde entier, ouvrant ainsi la voie à la création de nombreuses applications innovantes. À l'avenir, Qwen2.5-Omni devrait avoir un impact significatif dans des domaines tels que l'éducation, la santé et les loisirs.

Le lancement par Alibaba représente non seulement une avancée technologique majeure, mais aussi une exploration inédite des applications futures de l'IA multimodale.

Tongyi Qianwen Qwen2.5-Omni-7B Modèle multimodal Alibaba OmniBench

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily

Recommandations d'actualités IA connexes

AI Quotidien : Taobao lance une campagne de lutte contre les fausses images IA ; OpenAI annonce la prise en charge du protocole MCP ; Alibaba open source le modèle multimodal Qwen2.5-Omni

Bienvenue à la rubrique 【AI Quotidien】 ! Votre guide quotidien pour explorer le monde de l’intelligence artificielle. Chaque jour, nous vous présentons les actualités les plus importantes du domaine de l’IA, en nous concentrant sur les développeurs, pour vous aider à comprendre les tendances technologiques et les applications innovantes des produits IA. Découvrez les nouveaux produits IA : https://top.aibase.com/1、Alibaba lance Qwen2.5-Omni, un nouveau modèle multi-modal de bout en bout. L’équipe d’Alibaba Cloud Tongyi Qianwen a lancé Qwen2.5-Omni, un nouveau modèle multi-modal de bout en bout…

Mar 27, 2025

Publication en open source d'Alibaba Tongyi Qianwen : le nouveau modèle multimodal de bout en bout Qwen2.5-Omni

L'équipe Qwen d'Alibaba Cloud Tongyi Qianwen a annoncé le lancement de Qwen2.5-Omni, le nouveau modèle phare multimodal de bout en bout de la famille de modèles Qwen. Ce nouveau modèle est spécialement conçu pour la perception multimodale complète et peut traiter de manière transparente plusieurs formes d'entrée telles que le texte, les images, l'audio et la vidéo, tout en générant simultanément du texte et une sortie de synthèse vocale en streaming en temps réel.

Mar 27, 2025

Gemma-3 : Google open-source un nouveau modèle multimodal performant et 10 fois moins coûteux

Lors d'une conférence de presse, Sundar Pichai, PDG de Google, a annoncé la publication en open-source de Gemma-3, le dernier modèle multimodal de Google. Ce modèle se distingue par ses performances élevées et son faible coût, suscitant un vif intérêt. Gemma-3 est proposé en quatre tailles de paramètres : 1 milliard, 4 milliards, 12 milliards et 27 milliards de paramètres. De manière surprenante, le modèle le plus grand (27 milliards de paramètres) ne nécessite qu'une seule carte graphique H100 pour une inférence efficace, alors que des modèles similaires exigent généralement dix fois plus de puissance de calcul.

Mar 13, 2025

Huawei Ascend et Step-Video lancent un modèle multimodale open source, faisant leur entrée dans le nouveau domaine de l'IA

Récemment, la communauté Modelers a officiellement lancé Step-Video et Step-Audio, deux grands modèles multimodaux open source développés par Step-Video. Ces deux modèles sont respectivement utilisés pour la génération de vidéo et l'interaction vocale, visant à fournir aux développeurs et aux entreprises des outils IA plus performants. Step-Video, dont le nom complet est Step-Video-T2V, est un modèle de génération de vidéo open source parmi les plus grands au monde, avec un nombre de paramètres atteignant 30 milliards. Ce modèle est capable de générer directement des vidéos de 20...

Mar 10, 2025

220

Microsoft lance Phi-4, un modèle multimodal et miniature améliorant le traitement de la voix, de la vision et du texte

Feb 27, 2025

DeepSeek lance Janus-Pro, un nouveau modèle multimodal révolutionnaire

Le développeur chinois de modèles de langage DeepSeek a lancé Janus-Pro, un nouveau modèle d'IA multimodal qui marque son entrée dans le domaine de la génération d'images à partir de texte. Cette avancée représente une percée majeure pour DeepSeek dans le domaine de l'IA multimodale. Dans les benchmarks GenEval et DPG-Bench, Janus-Pro-7B a non seulement surpassé DALL-E3 d'OpenAI, mais a également dépassé des modèles populaires tels que Stable Diffusion et Emu3-Gen. Janus-Pro utilise une licence MIT.

Jan 28, 2025

9.3k

Bulletin IA : DeepSeek R1, un modèle national open source dépassant O1 ; Lancement de Kimi, un modèle multimodal de réflexion k1.5 ; Lancement de Qingying 2.0 et de Zhishu Qingyan

Bienvenue dans la rubrique [Bulletin IA] ! Votre guide quotidien pour explorer le monde de l’intelligence artificielle. Chaque jour, nous vous présentons les actualités les plus importantes du domaine de l’IA, en nous concentrant sur les développeurs, pour vous aider à comprendre les tendances technologiques et les applications innovantes des produits IA. Découvrez les nouveaux produits IA : https://top.aibase.com/1. Nouvelle percée pour les modèles nationaux d’IA ! Une croissance de 3,7 % en glissement annuel du volume des livraisons prévue pour le quatrième trimestre 2024. La demande d’amélioration des systèmes informatiques des entreprises augmente, les ordinateurs portables IA vont changer l’expérience utilisateur et stimuler le développement du marché.

Jan 21, 2025

2.1k

Alibaba Damo Academy lance Valley 2, un grand modèle multimodal pour le commerce électronique

Alibaba Damo Academy a récemment lancé Valley2, un grand modèle linguistique multimodal conçu pour le commerce électronique. Ce modèle vise à améliorer les performances dans divers domaines et à étendre les applications aux scénarios de commerce électronique et de vidéos courtes grâce à une architecture visuelle-linguistique évolutive. Valley2 utilise Qwen2.5 comme backbone LLM, associé à un encodeur visuel SigLIP-384, combiné à une couche MLP et à une convolution pour une conversion efficace des caractéristiques.

Jan 15, 2025

2.5k

Hu Han, ancien expert en vision chez Microsoft, rejoint Tencent pour diriger le développement du modèle multimodal HunYuan

Hu Han, ancien chercheur principal du groupe de calcul visuel de Microsoft Research Asia, a officiellement rejoint Tencent. Il succède à Liu Wei, ancien responsable technique du grand modèle HunYuan de Tencent, et est désormais chargé du développement du grand modèle multimodal. Cette nouvelle a suscité un vif intérêt dans le secteur. Hu Han possède de solides antécédents académiques. En 2008, il a obtenu une licence de l'université Tsinghua et un doctorat en 2014 sous la direction du célèbre professeur Zhou Jie. Sa thèse de doctorat a reçu le prix de la meilleure thèse de doctorat de l'Association chinoise pour l'intelligence artificielle en 2016. En 2012, Hu Han a travaillé à l'université de Pennsylvanie...

Jan 8, 2025

1.4k

Visuel Chine et Vidu de Shengshu Technology collaborent pour développer une solution de génération de contenu vidéo IA

Visuel Chine a récemment annoncé un partenariat stratégique avec Beijing Shengshu Technology Co., Ltd. pour explorer et construire ensemble une « plateforme et des applications de grand modèle pour l'industrie visuelle ». Cette collaboration vise à approfondir l'application de l'intelligence artificielle dans l'industrie du contenu visuel et à promouvoir la modernisation intelligente de l'industrie, afin de fournir des services plus efficaces et intelligents aux créateurs et utilisateurs de contenu visuel dans le monde entier.

Dec 11, 2024

2.3k

Actualités IA

IA Quotidien

Chronologie de l'IA

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu