Récemment, l'équipe de modèles linguistiques de Xiaomi a réalisé une percée majeure dans le domaine de l'inférence audio. Elle a réussi à appliquer avec succès un algorithme d'apprentissage par renforcement à des tâches de compréhension audio multimodales, atteignant un taux de précision de 64,5 %. Cette réussite lui a valu la première place au classement MMAU, une évaluation internationale de référence pour la compréhension audio.
Le jeu de données MMAU (Massive Multi-Task Audio Understanding and Reasoning) est une référence importante pour mesurer la capacité d'inférence audio. Il teste les performances des modèles sur des tâches d'inférence complexes en analysant divers échantillons audio incluant la parole, les sons environnementaux et la musique. Le taux de précision des experts humains est de 82,23 %, tandis que le meilleur modèle actuel sur le classement est GPT-4o d'OpenAI, avec un taux de précision de 57,3 %. Dans ce contexte, les résultats de l'équipe Xiaomi sont particulièrement remarquables.
Dans ses expériences, l'équipe a utilisé la méthode Group Relative Policy Optimization (GRPO) de DeepSeek-R1. Cette méthode, basée sur un mécanisme d'« essai-erreur - récompense », permet au modèle d'évoluer de manière autonome, démontrant des capacités de réflexion et d'inférence similaires à celles des humains. Il est notable que, grâce à l'apprentissage par renforcement, le modèle de l'équipe Xiaomi a atteint un taux de précision de 64,5 % sur le jeu de données MMAU, même avec seulement 38 000 échantillons d'entraînement, soit près de 10 points de pourcentage de plus que le précédent meilleur modèle.
De plus, les expériences ont révélé que les méthodes traditionnelles de sortie de chaîne de pensée explicite conduisaient à une baisse de la précision du modèle, soulignant l'avantage de l'inférence implicite lors de l'entraînement. Malgré ces résultats significatifs, l'équipe Xiaomi est consciente qu'il reste encore une marge de progression par rapport au niveau des experts humains. L'équipe a déclaré qu'elle continuerait à optimiser les stratégies d'apprentissage par renforcement afin d'améliorer les capacités d'inférence.
Le succès de cette recherche met en lumière le potentiel de l'apprentissage par renforcement dans le domaine de la compréhension audio et ouvre la voie à une ère d'écoute intelligente. Alors que les machines pourront non seulement « entendre » les sons, mais aussi « comprendre » la logique causale qui les sous-tend, les technologies audio intelligentes connaîtront de nouvelles opportunités de développement. L'équipe Xiaomi prévoit également de rendre publics le code d'entraînement et les paramètres du modèle afin de favoriser la recherche et les échanges au sein des milieux académiques et industriels.
Code d'entraînement : https://github.com/xiaomi-research/r1-aqa
Paramètres du modèle : https://huggingface.co/mispeech/r1-aqa
Rapport technique : https://arxiv.org/abs/2503.11197
Démo interactive : https://120.48.108.147:7860/