El equipo de modelos grandes de Xiaomi anunció a través de su cuenta oficial de Weibo que ha logrado un progreso significativo en el campo de la inferencia de audio. Inspirados en DeepSeek-R1, fueron pioneros en la aplicación de algoritmos de aprendizaje por refuerzo a tareas de comprensión de audio multimodal. En solo una semana, el equipo alcanzó la cima de la clasificación MMAU (Massive Multi-Task Audio Understanding and Reasoning), un prestigioso benchmark internacional para la comprensión de audio, con una precisión SOTA (State Of The Art) del 64.5%, y simultáneamente publicó el código fuente de la tecnología.
El conjunto de evaluación MMAU (Massive Multi-Task Audio Understanding and Reasoning) es un estándar importante para probar la capacidad de inferencia de audio, que abarca diez mil muestras de voz, sonidos ambientales y música, con el objetivo de evaluar el rendimiento del modelo en diversas habilidades. La precisión de los expertos humanos en este conjunto de evaluación es del 82.23%, mientras que el modelo con mejor rendimiento actual en la clasificación es GPT-4o de OpenAI, con una precisión del 57.3%, seguido de Gemini2.0Flash de Google DeepMind, con una precisión del 55.6%.
En la investigación del equipo de Xiaomi, inicialmente utilizaron el conjunto de datos AVQA publicado por la Universidad de Tsinghua para el ajuste fino, logrando una precisión del 51.8%. Sin embargo, el verdadero avance se produjo al aplicar el algoritmo Group Relative Policy Optimization (GRPO) de DeepSeek-R1 al modelo Qwen2-Audio-7B, logrando una precisión del 64.5% con solo 38,000 muestras de entrenamiento de AVQA, superando a los modelos comerciales existentes.
El equipo de investigación descubrió que, al obligar al modelo a generar el proceso de inferencia durante el entrenamiento, la precisión disminuía al 61.1%. Esto indica que la salida explícita de la cadena de pensamiento puede ser perjudicial para el entrenamiento del modelo, y el mecanismo de retroalimentación en tiempo real del aprendizaje por refuerzo es más útil para que el modelo se centre en la distribución de respuestas de alta calidad. A pesar de haber logrado una precisión significativa, todavía existe una brecha con respecto al nivel de los expertos humanos.
Los resultados experimentales del equipo de modelos grandes de Xiaomi no solo muestran las ventajas únicas del aprendizaje por refuerzo en el campo de la inferencia de audio, sino que también proporcionan nuevas ideas para futuras investigaciones. También han publicado el código de entrenamiento, los parámetros del modelo y el informe técnico para facilitar la investigación y el intercambio entre la comunidad académica y la industria.
Código de entrenamiento: https://github.com/xiaomi-research/r1-aqa
Parámetros del modelo: https://huggingface.co/mispeech/r1-aqa
Informe técnico: https://arxiv.org/abs/2503.11197
Demo interactiva: https://120.48.108.147:7860/
Puntos clave:
🔍 El equipo de modelos grandes de Xiaomi ha logrado un gran avance en el campo de la inferencia de audio mediante algoritmos de aprendizaje por refuerzo, alcanzando una precisión del 64.5%.
📈 El conjunto de evaluación MMAU es un estándar importante para la capacidad de inferencia de audio; la precisión actual de los expertos humanos es del 82.23%.
💡 Los resultados de la investigación muestran que el mecanismo de retroalimentación en tiempo real del aprendizaje por refuerzo es más efectivo para el entrenamiento del modelo; se requiere una investigación más profunda en el futuro.