A equipe oficial de mídia social da Xiaomi anunciou que sua equipe de modelos grandes obteve avanços significativos na área de raciocínio de áudio. Inspirados pelo DeepSeek-R1, eles foram os primeiros a aplicar algoritmos de aprendizado por reforço a tarefas de compreensão de áudio multimodal. Em apenas uma semana, a equipe atingiu uma precisão SOTA (State Of The Art) de 64,5%, conquistando o primeiro lugar no ranking de avaliação de compreensão de áudio MMAU, uma autoridade internacional, e, simultaneamente, disponibilizou o código-fonte da tecnologia.

QQ_1742182963895.png

O conjunto de avaliação MMAU (Massive Multi-Task Audio Understanding and Reasoning) é um importante padrão para testar a capacidade de raciocínio de áudio, abrangendo 10.000 amostras de voz, sons ambientais e música, com o objetivo de avaliar o desempenho do modelo em várias habilidades. A taxa de precisão de especialistas humanos neste conjunto de avaliação é de 82,23%, enquanto o modelo com melhor desempenho atual na lista é o GPT-4o da OpenAI, com uma precisão de 57,3%, seguido pelo Gemini2.0Flash do Google DeepMind, com 55,6% de precisão.

Na pesquisa da equipe Xiaomi, inicialmente, eles usaram o conjunto de dados AVQA lançado pela Universidade Tsinghua para ajuste fino, obtendo uma precisão de 51,8%. No entanto, o verdadeiro avanço ocorreu após a aplicação do algoritmo Group Relative Policy Optimization (GRPO) do DeepSeek-R1 ao modelo Qwen2-Audio-7B, alcançando uma precisão de 64,5% com apenas 38.000 amostras de treinamento do AVQA, superando os modelos comerciais existentes.

A equipe de pesquisa descobriu que, ao forçar o modelo a gerar o processo de raciocínio durante o treinamento, a precisão caiu para 61,1%. Isso indica que a saída explícita da cadeia de pensamento pode ser prejudicial ao treinamento do modelo, enquanto o mecanismo de feedback em tempo real do aprendizado por reforço ajuda o modelo a se concentrar na área de distribuição de respostas de alta qualidade. Apesar da precisão significativa alcançada, ainda há uma lacuna em relação ao nível dos especialistas humanos.

Os resultados experimentais da equipe de modelos grandes da Xiaomi não apenas demonstram as vantagens exclusivas do aprendizado por reforço na área de raciocínio de áudio, mas também fornecem novas ideias para pesquisas futuras. Eles também disponibilizaram o código de treinamento, os parâmetros do modelo e o relatório técnico como código aberto, facilitando pesquisas e intercâmbios adicionais no meio acadêmico e industrial.

Código de treinamento: https://github.com/xiaomi-research/r1-aqa

Parâmetros do modelo: https://huggingface.co/mispeech/r1-aqa

Relatório técnico: https://arxiv.org/abs/2503.11197

Demo interativo: https://120.48.108.147:7860/

Destaques:

🔍 A equipe de modelos grandes da Xiaomi obteve um avanço no campo do raciocínio de áudio usando algoritmos de aprendizado por reforço, alcançando uma precisão de 64,5%.  

📈 O conjunto de avaliação MMAU é um importante padrão para a capacidade de raciocínio de áudio, com uma taxa de precisão atual de especialistas humanos de 82,23%.  

💡 Os resultados da pesquisa indicam que o mecanismo de feedback em tempo real do aprendizado por reforço é mais eficaz para o treinamento do modelo, e pesquisas futuras ainda precisam ser exploradas a fundo.