Le 27 mars, à l'aube, Alibaba a lancé son premier grand modèle multimodal : Tongyi Qianwen Qwen2.5-Omni-7B. Ce modèle puissant peut traiter simultanément plusieurs types d'entrées, notamment du texte, des images, de l'audio et de la vidéo, et générer du texte et de la parole naturelle en temps réel. Cette percée technologique innovante marque une nouvelle avancée d'Alibaba dans le domaine de l'intelligence artificielle.
Lors des tests OmniBench, une référence pour les tâches de fusion multimodales, Qwen2.5-Omni a obtenu des résultats remarquables, battant les records de l'industrie et surpassant largement des modèles similaires tels que Gemini-1.5-Pro de Google. Ce résultat met en évidence la puissance de Qwen2.5-Omni et consolide la position de leader d'Alibaba dans la compétition technologique mondiale.
Source : Image générée par IA, fournie par Midjourney
L'originalité de Qwen2.5-Omni réside dans sa capacité à simuler les sens humains, lui permettant de percevoir et de comprendre le monde de manière « tridimensionnelle », proche de la façon dont le font les humains. Cela signifie que Qwen2.5-Omni peut non seulement identifier divers types d'entrées, mais aussi analyser les émotions grâce à l'analyse audio et vidéo, offrant ainsi des réponses et des capacités décisionnelles plus intelligentes et naturelles face à des tâches complexes. Il en résulte une flexibilité et une adaptabilité accrues dans les applications concrètes.
Avec les progrès constants de l'IA, le lancement de Qwen2.5-Omni stimulera sans aucun doute le développement du secteur et apportera une nouvelle impulsion à la transformation numérique de divers secteurs. En open-sourçant ce grand modèle, Alibaba attire l'attention des développeurs du monde entier, ouvrant ainsi la voie à la création de nombreuses applications innovantes. À l'avenir, Qwen2.5-Omni devrait avoir un impact significatif dans des domaines tels que l'éducation, la santé et les loisirs.
Le lancement par Alibaba représente non seulement une avancée technologique majeure, mais aussi une exploration inédite des applications futures de l'IA multimodale.