Recientemente, el equipo de modelos grandes de Xiaomi ha logrado un avance innovador en el campo de la inferencia de audio. Han aplicado con éxito un algoritmo de aprendizaje por refuerzo a tareas de comprensión de audio multimodal, alcanzando una precisión del 64.5%. Este logro les ha valido el primer lugar en la evaluación internacional MMAU de comprensión de audio, una autoridad en el campo.

MMAU (Massive Multi-Task Audio Understanding and Reasoning) es un conjunto de evaluación que sirve como estándar importante para medir la capacidad de razonamiento de audio. Analiza diversas muestras de audio que incluyen voz, sonidos ambientales y música, probando el rendimiento del modelo en tareas de razonamiento complejas. La precisión de los expertos humanos es del 82.23%, mientras que el mejor modelo actual en la lista es GPT-4o de OpenAI, con una precisión del 57.3%. En este contexto, el logro del equipo de Xiaomi es especialmente notable.

image.png

En sus experimentos, el equipo utilizó el método Group Relative Policy Optimization (GRPO) de DeepSeek-R1. Este método, a través de un mecanismo de "prueba y error - recompensa", permite que el modelo evolucione de forma autónoma, mostrando una capacidad de reflexión y razonamiento similar a la humana. Es destacable que, con el apoyo del aprendizaje por refuerzo, el modelo del equipo de Xiaomi logró una precisión del 64.5% en el conjunto de evaluación MMAU, incluso utilizando solo 38,000 muestras de entrenamiento, superando al anterior líder en casi 10 puntos porcentuales.

Además, los experimentos revelaron que la forma tradicional de salida de cadena de pensamiento explícita, por el contrario, provoca una disminución en la precisión del modelo, lo que demuestra la ventaja de la inferencia implícita en el entrenamiento. A pesar de los resultados significativos, el equipo de Xiaomi reconoce que aún existe una distancia con respecto al nivel de los expertos humanos. El equipo ha indicado que continuará optimizando las estrategias de aprendizaje por refuerzo para lograr una mejor capacidad de razonamiento.

El éxito de esta investigación no solo demuestra el potencial del aprendizaje por refuerzo en el campo de la comprensión de audio, sino que también allana el camino para una futura era de audición inteligente. A medida que las máquinas no solo puedan "escuchar" el sonido, sino también "comprender" la lógica causal subyacente, la tecnología de audio inteligente experimentará nuevas oportunidades de desarrollo. El equipo de Xiaomi también lanzará el código de entrenamiento y los parámetros del modelo como código abierto para facilitar la investigación y el intercambio entre la comunidad académica y la industria.

Código de entrenamiento: https://github.com/xiaomi-research/r1-aqa

Parámetros del modelo: https://huggingface.co/mispeech/r1-aqa

Informe técnico: https://arxiv.org/abs/2503.11197

Demo interactiva: https://120.48.108.147:7860/