Recentemente, a equipe de modelos de linguagem grande da Xiaomi alcançou um avanço significativo na área de raciocínio de áudio, aplicando com sucesso algoritmos de aprendizado por reforço a tarefas de compreensão de áudio multimodal. A precisão atingiu 64,5%, conquistando o primeiro lugar na avaliação de compreensão de áudio MMAU, uma autoridade internacional. Este sucesso se baseia na inspiração do DeepSeek-R1.

O conjunto de avaliação MMAU (Massive Multi-Task Audio Understanding and Reasoning) é um padrão importante para medir a capacidade de raciocínio de áudio. Ele analisa várias amostras de áudio, incluindo fala, sons ambientais e música, para testar o desempenho do modelo em tarefas de raciocínio complexas. A precisão de especialistas humanos é de 82,23%, enquanto o melhor modelo atual na classificação é o GPT-4o da OpenAI, com uma precisão de 57,3%. Nesse contexto, o resultado da equipe da Xiaomi é particularmente notável.

image.png

Em seus experimentos, a equipe utilizou o método Group Relative Policy Optimization (GRPO) do DeepSeek-R1. Este método, através de um mecanismo de "tentativa e erro - recompensa", permite que o modelo evolua de forma autônoma, exibindo uma capacidade semelhante à reflexão e raciocínio humanos. É importante notar que, com o suporte do aprendizado por reforço, mesmo usando apenas 38.000 amostras de treinamento, o modelo da equipe da Xiaomi conseguiu atingir uma precisão de 64,5% no conjunto de avaliação MMAU, superando o modelo anterior em quase 10 pontos percentuais.

Além disso, os experimentos descobriram que o método tradicional de saída explícita de cadeia de pensamento, na verdade, levou a uma diminuição na precisão do modelo, mostrando a vantagem da inferência implícita no treinamento. Apesar dos resultados significativos, a equipe da Xiaomi reconhece que ainda há uma distância a ser percorrida em relação ao nível de precisão dos especialistas humanos. A equipe afirma que continuará otimizando as estratégias de aprendizado por reforço para alcançar uma melhor capacidade de raciocínio.

O sucesso desta pesquisa não apenas demonstra o potencial do aprendizado por reforço na área de compreensão de áudio, mas também prepara o caminho para uma era de audição inteligente futura. À medida que as máquinas não apenas "ouvem" os sons, mas também "entendem" a lógica causal por trás deles, a tecnologia de áudio inteligente terá novas oportunidades de desenvolvimento. A equipe da Xiaomi também irá disponibilizar o código de treinamento e os parâmetros do modelo como código aberto para promover pesquisas e discussões adicionais na academia e na indústria.

Código de treinamento: https://github.com/xiaomi-research/r1-aqa

Parâmetros do modelo: https://huggingface.co/mispeech/r1-aqa

Relatório técnico: https://arxiv.org/abs/2503.11197

Demo interativo: https://120.48.108.147:7860/