小米テクノロジーの公式微博によると、小米の大規模言語モデルチームが音声推論分野で著しい進歩を遂げたと発表しました。DeepSeek-R1に着想を得て、多様な音声理解タスクに強化学習アルゴリズムを初めて適用しました。わずか1週間で、国際的に権威のあるMMAU音声理解評価ベンチマークで64.5%のSOTA(State Of The Art)精度を達成し、トップに立ち、関連技術を同時にオープンソース化しました。
MMAU(Massive Multi-Task Audio Understanding and Reasoning)評価データセットは、音声推論能力をテストするための重要な基準であり、1万件の音声、環境音、音楽サンプルを含んでおり、モデルの様々なスキルにおける性能を評価することを目的としています。この評価データセットにおける人間の専門家の精度は82.23%ですが、現在このランキングで最高の性能を示しているのはOpenAIのGPT-4oで、精度は57.3%、次いでGoogle DeepMindのGemini2.0Flashで、精度は55.6%です。
小米チームの研究では、最初に清華大学が公開したAVQAデータセットを用いてファインチューニングを行い、51.8%の精度を達成しました。しかし、真のブレークスルーは、DeepSeek-R1のGroup Relative Policy Optimization(GRPO)アルゴリズムをQwen2-Audio-7Bモデルに適用した後でした。AVQAの3.8万件のトレーニングサンプルのみを用いて64.5%の精度を達成し、既存の商用モデルを凌駕しました。
研究チームは、トレーニング中にモデルに推論過程の出力を強制すると、精度は61.1%に低下することを発見しました。これは、明示的な思考連鎖の出力がモデルのトレーニングに不利である可能性があり、強化学習のリアルタイムフィードバックメカニズムの方が、モデルが高品質な回答の分布領域を特定するのに役立つことを示唆しています。高い精度を達成しましたが、人間の専門家のレベルにはまだ差があります。
小米大規模言語モデルチームの実験結果は、強化学習が音声推論分野で独自の利点を示していることを示すとともに、将来の研究のための新たな方向性を示唆しています。また、トレーニングコード、モデルパラメータ、技術レポートをオープンソース化し、学術界と産業界がさらなる研究と交流を行うことを容易にしています。
トレーニングコード: https://github.com/xiaomi-research/r1-aqa
モデルパラメータ: https://huggingface.co/mispeech/r1-aqa
技術レポート: https://arxiv.org/abs/2503.11197
インタラクティブデモ: https://120.48.108.147:7860/
要点:
🔍 小米の大規模言語モデルチームは、強化学習アルゴリズムにより音声推論分野でブレークスルーを達成し、精度は64.5%に達しました。
📈 MMAU評価データセットは、音声推論能力の重要な基準であり、現在の専門家の精度は82.23%です。
💡 研究結果は、強化学習のリアルタイムフィードバックメカニズムがモデルのトレーニングにより効果的であることを示しており、今後の研究ではさらなる探求が必要です。