Qwen2-Audio : un modèle multimodal audio de la série Qianwen, interaction vocale sans texte

Alibaba Cloud vient de lancer Qwen-Audio, un modèle linguistique audio à grande échelle. Ce modèle peut accepter de multiples signaux audio en entrée, permettant ainsi l'analyse audio ou la réponse directe aux commandes vocales, améliorant considérablement l'expérience d'interaction vocale.

Accès au produit :https://top.aibase.com/tool/qwen2-audio

Ce lancement propose deux modes d'interaction audio uniques : le chat audio et l'analyse audio. Les utilisateurs peuvent interagir vocalement avec Qwen-Audio sans saisir de texte, et peuvent également fournir des fichiers audio et des instructions textuelles pour l'analyse, offrant ainsi une expérience plus conviviale.

Qwen-Audio comprend intelligemment le contenu audio et répond de manière appropriée aux commandes vocales. Par exemple, dans un segment audio contenant simultanément des sons, des conversations à plusieurs intervenants et des commandes vocales, Qwen-Audio peut comprendre directement la commande et fournir une explication et une réponse à l'audio.

De plus, DPO a optimisé les performances du modèle en termes de fidélité factuelle et de respect des comportements attendus. Selon les résultats de l'évaluation AIR-Bench, Qwen-Audio surpasse les précédents modèles de pointe (SOTA), tels que Gemini-1.5-pro, dans les tests axés sur le suivi des instructions centrées sur l'audio. Qwen-Audio est open source et vise à favoriser le progrès de la communauté linguistique multimodale.

Il est entendu que la série Qwen2-Audio lancera deux modèles : Qwen2-Audio et Qwen-Audio-Chat, offrant aux utilisateurs une expérience d'interaction audio plus riche.

Les chercheurs procéderont à une évaluation complète du modèle Qwen2-Audio, en évaluant ses performances sur diverses tâches sans aucun réglage fin spécifique à la tâche. Concernant les résultats de la reconnaissance automatique de la parole (ASR) en anglais, Qwen2-Audio affiche des performances supérieures aux modèles d'apprentissage multitâches précédents.

En ce qui concerne les capacités de conversation de Qwen2-Audio, les chercheurs ont mesuré ses performances sur l'étalon de référence de conversation AIR-Bench (Yang et al., 2024). Qwen2-Audio a démontré des fonctionnalités de suivi d'instructions de pointe (SOTA) sur les sous-ensembles vocaux, sonores, musicaux et audio mixtes. Comparé à Qwen-Audio, il montre des améliorations substantielles et surpasse nettement les autres LALM.

Points clés :
🌟 Alibaba Cloud lance Qwen2-Audio, un modèle linguistique audio à grande échelle révolutionnaire qui améliore l'expérience d'interaction vocale ;
🌟 Qwen2-Audio peut accepter de multiples signaux audio en entrée pour l'analyse audio ou pour répondre directement aux commandes vocales, étendant considérablement les fonctionnalités d'interaction vocale ;
🌟 Grâce à un processus d'entraînement en trois étapes, la méthode d'entraînement de la structure du modèle Qwen2-Audio et ses performances sont entièrement présentées, offrant aux utilisateurs une expérience d'interaction audio de meilleure qualité.

Actualités IA

Qwen2-Audio : un modèle multimodal audio de la série Qianwen, interaction vocale sans texte

AIbase