Le 27 mars, l'équipe Qwen d'Alibaba Cloud a annoncé le lancement de Qwen2.5-Omni, le nouveau modèle multimodal phare de bout en bout de la famille de modèles Qwen. Ce nouveau modèle, spécialement conçu pour la perception multimodale complète, peut traiter de manière transparente plusieurs formes d'entrée telles que le texte, les images, l'audio et la vidéo, et générer simultanément du texte et une sortie de synthèse vocale naturelle via une réponse en streaming en temps réel.

Qwen2.5-Omni utilise l'architecture innovante Thinker-Talker, un modèle multimodal de bout en bout conçu pour prendre en charge la compréhension intermodale du texte, des images, de l'audio et de la vidéo, et pour générer du texte et des réponses vocales naturelles en streaming. Le module Thinker, semblable à un cerveau, traite les entrées multimodales et génère une représentation sémantique de haut niveau et le contenu textuel correspondant ; le module Talker, semblable à un organe vocal, reçoit en streaming la représentation sémantique et le texte produits en temps réel par le module Thinker pour synthétiser de manière fluide des unités vocales discrètes. De plus, ce modèle propose une nouvelle technique de codage de position, TMRoPE (Time-aligned Multimodal RoPE), qui permet une synchronisation précise des entrées vidéo et audio grâce à l'alignement temporel.

微信截图_20250327082050.png

Ce modèle offre d'excellentes performances en matière d'interaction audiovisuelle en temps réel, prenant en charge l'entrée par blocs et la sortie instantanée, permettant une interaction entièrement en temps réel. En termes de naturalité et de stabilité de la génération vocale, Qwen2.5-Omni surpasse de nombreuses solutions de streaming et non-streaming existantes. En termes de performances multimodales, Qwen2.5-Omni affiche des performances exceptionnelles lors de tests de référence avec des modèles unimodaux de taille équivalente. Ses capacités audio sont supérieures à celles de Qwen2-Audio de taille similaire, et sont au même niveau que celles de Qwen2.5-VL-7B. De plus, Qwen2.5-Omni présente des performances comparables au traitement des entrées textuelles en matière de suivi des instructions vocales de bout en bout, et excelle dans les tests de référence tels que la compréhension des connaissances générales MMLU et le raisonnement mathématique GSM8K.

Qwen2.5-Omni surpasse les modèles unimodaux et les modèles à source fermée de taille similaire, tels que Qwen2.5-VL-7B, Qwen2-Audio et Gemini-1.5-pro, dans diverses modalités, notamment les images, l'audio et l'audio-vidéo. Dans le benchmark multi-modal OmniBench, Qwen2.5-Omni a atteint des performances de pointe (SOTA). Dans les tâches unimodales, Qwen2.5-Omni excelle dans plusieurs domaines, notamment la reconnaissance vocale (Common Voice), la traduction (CoVoST2), la compréhension audio (MMAU), le raisonnement d'image (MMMU, MMStar), la compréhension vidéo (MVBench) et la génération vocale (Seed-tts-eval et évaluation subjective de la qualité naturelle).

Actuellement, Qwen2.5-Omni est disponible en open source sur Hugging Face, ModelScope, DashScope et GitHub. Les utilisateurs peuvent essayer les fonctionnalités interactives via une démo, ou lancer des conversations vocales ou vidéo directement via Qwen Chat pour une expérience immersive des puissantes performances du nouveau modèle Qwen2.5-Omni.