Le compte officiel Weibo de Xiaomi Technology a annoncé que son équipe de grands modèles a réalisé des progrès significatifs dans le domaine du raisonnement audio. Inspirée par DeepSeek-R1, elle a été la première à appliquer un algorithme d'apprentissage par renforcement à des tâches de compréhension audio multimodales. En une semaine seulement, l'équipe a atteint un taux de précision SOTA (State Of The Art) de 64,5 %, se classant en tête du classement MMAU, une évaluation internationale de référence pour la compréhension audio, et a simultanément publié en open source les technologies associées.

QQ_1742182963895.png

Le jeu de données MMAU (Massive Multi-Task Audio Understanding and Reasoning) est une norme importante pour évaluer les capacités de raisonnement audio. Il comprend 10 000 échantillons de voix, de sons environnementaux et de musique, visant à évaluer les performances du modèle dans diverses compétences. Le taux de précision des experts humains sur ce jeu de données est de 82,23 %. Actuellement, le meilleur modèle sur ce classement est GPT-4o d'OpenAI, avec un taux de précision de 57,3 %, suivi de Gemini2.0Flash de Google DeepMind, avec un taux de précision de 55,6 %.

Dans les recherches de l'équipe Xiaomi, ils ont initialement utilisé le jeu de données AVQA publié par l'Université Tsinghua pour l'ajustement fin, obtenant un taux de précision de 51,8 %. Mais la véritable percée a été l'application de l'algorithme Group Relative Policy Optimization (GRPO) de DeepSeek-R1 au modèle Qwen2-Audio-7B. Avec seulement 38 000 échantillons d'entraînement d'AVQA, ils ont atteint un taux de précision de 64,5 %, surpassant les modèles commerciaux existants.

L'équipe de recherche a constaté qu'en forçant le modèle à produire un processus de raisonnement pendant l'entraînement, le taux de précision diminuait à 61,1 %. Cela montre que la sortie explicite de la chaîne de pensée peut être défavorable à l'entraînement du modèle, et que le mécanisme de rétroaction en temps réel de l'apprentissage par renforcement contribue davantage à ce que le modèle se concentre sur la zone de distribution des réponses de haute qualité. Malgré ce taux de précision remarquable, un écart persiste avec le niveau des experts humains.

Les résultats expérimentaux de l'équipe de grands modèles de Xiaomi montrent non seulement les avantages uniques de l'apprentissage par renforcement dans le domaine du raisonnement audio, mais offrent également de nouvelles pistes de recherche. Ils ont également publié en open source le code d'entraînement, les paramètres du modèle et le rapport technique afin de faciliter les recherches et les échanges ultérieurs au sein des milieux académiques et industriels.

Code d'entraînement : https://github.com/xiaomi-research/r1-aqa

Paramètres du modèle : https://huggingface.co/mispeech/r1-aqa

Rapport technique : https://arxiv.org/abs/2503.11197

Démo interactive : https://120.48.108.147:7860/

Points clés :

🔍 L'équipe de grands modèles de Xiaomi a réalisé une percée dans le domaine du raisonnement audio grâce à un algorithme d'apprentissage par renforcement, atteignant un taux de précision de 64,5 %.  

📈 Le jeu de données MMAU est une norme importante pour évaluer les capacités de raisonnement audio. Le taux de précision actuel des experts humains est de 82,23 %.  

💡 Les résultats de la recherche montrent que le mécanisme de rétroaction en temps réel de l'apprentissage par renforcement est plus efficace pour l'entraînement du modèle. Des recherches plus approfondies sont nécessaires.