先日、Xiaomiの大規模言語モデルチームは音声推論分野で画期的な進歩を遂げ、強化学習アルゴリズムを多様なモーダル音声理解タスクに適用することに成功しました。その精度は64.5%に達し、権威ある国際的なMMAU音声理解評価で1位を獲得しました。この成果の背景には、DeepSeek-R1からの着想が不可欠です。

MMAU(Massive Multi-Task Audio Understanding and Reasoning)評価セットは、音声推論能力を測る重要な基準であり、音声、環境音、音楽を含む様々な音声サンプルを分析することで、複雑な推論タスクにおけるモデルの性能をテストします。人間の専門家の精度は82.23%で、現在のランキングで最高のモデルはOpenAIのGPT-4oで、精度は57.3%です。このような状況下で、Xiaomiチームの成果は特に注目に値します。

image.png

チームの実験では、DeepSeek-R1のGroup Relative Policy Optimization(GRPO)手法を採用しました。この手法は「試行錯誤と報酬」のメカニズムを通じて、モデルが自律的に進化し、人間のような反省と推論能力を示すことを可能にします。注目すべきは、強化学習の支援により、わずか3.8万件の訓練サンプルしか使用していないにもかかわらず、XiaomiチームのモデルはMMAU評価セットで64.5%の精度を達成し、現在の1位を約10ポイント上回ったことです。

さらに、実験では、従来の明示的な思考連鎖出力方式はかえってモデルの精度を低下させることが判明し、訓練における暗黙的な推論の優位性が示されました。顕著な成果を収めたものの、Xiaomiチームは、人間の専門家のレベルにはまだ到達していないことを認識しています。チームは、より優れた推論能力を実現するために、強化学習戦略の最適化を継続していくとしています。

この研究の成功は、強化学習の音声理解分野における可能性を示しただけでなく、未来のインテリジェントな聴覚時代への道を切り開きました。機械が音を「聞く」だけでなく、その背後にある因果関係を「理解」できるようになると、インテリジェントな音声技術は新たな発展の機会を迎えるでしょう。Xiaomiチームは、学術界と産業界の更なる研究と交流を促進するために、訓練コードとモデルパラメータをオープンソース化する予定です。

訓練コード: https://github.com/xiaomi-research/r1-aqa

モデルパラメータ: https://huggingface.co/mispeech/r1-aqa

技術レポート: https://arxiv.org/abs/2503.11197

インタラクティブデモ: https://120.48.108.147:7860/