Das offizielle Weibo-Konto von Xiaomi Technology gab bekannt, dass das Xiaomi-Großmodellteam im Bereich des Audio-Inferenz signifikante Fortschritte erzielt hat. Inspiriert von DeepSeek-R1, setzte das Team als erstes einen verstärkenden Lernalgorithmus für Multimodal-Audio-Verständnisaufgaben ein. Innerhalb einer Woche erreichte das Team eine Genauigkeit von 64,5 % (SOTA – State Of The Art) und erreichte damit den Spitzenplatz auf der MMAU-Audio-Verständnis-Bewertungsliste, einem international anerkannten Benchmark. Gleichzeitig wurde die entsprechende Technologie Open Source gestellt.
Der MMAU (Massive Multi-Task Audio Understanding and Reasoning) Datensatz ist ein wichtiger Standard zur Prüfung der Audio-Inferenzfähigkeit. Er umfasst 10.000 Sprach-, Umgebungsgeräusch- und Musikproben und dient der Bewertung der Fähigkeiten des Modells in verschiedenen Bereichen. Die Genauigkeit von menschlichen Experten in diesem Datensatz beträgt 82,23 %. Das derzeit beste Modell auf dieser Liste ist GPT-4o von OpenAI mit einer Genauigkeit von 57,3 %, gefolgt von Gemini2.0Flash von Google DeepMind mit einer Genauigkeit von 55,6 %.
In der Studie des Xiaomi-Teams wurde zunächst der von der Tsinghua-Universität veröffentlichte AVQA-Datensatz zum Feintuning verwendet, was eine Genauigkeit von 51,8 % erzielte. Der eigentliche Durchbruch gelang jedoch durch die Anwendung des Group Relative Policy Optimization (GRPO)-Algorithmus von DeepSeek-R1 auf das Qwen2-Audio-7B-Modell. Mit nur 38.000 Trainingsbeispielen aus AVQA wurde eine Genauigkeit von 64,5 % erreicht, womit bestehende kommerzielle Modelle übertroffen wurden.
Das Forschungsteam stellte fest, dass die Genauigkeit auf 61,1 % sank, als das Modell während des Trainings gezwungen wurde, den Inferenzprozess auszugeben. Dies zeigt, dass eine explizite Ausgabe der Denkweise möglicherweise nicht vorteilhaft für das Modelltraining ist. Der Echtzeit-Feedback-Mechanismus des verstärkenden Lernens trägt eher dazu bei, dass das Modell den Bereich hochwertiger Antworten präzise identifiziert. Trotz der bemerkenswerten Genauigkeit besteht immer noch eine Lücke zur Leistung von menschlichen Experten.
Die Ergebnisse des Xiaomi-Großmodellteams zeigen nicht nur die einzigartigen Vorteile des verstärkenden Lernens im Bereich der Audio-Inferenz, sondern liefern auch neue Ansatzpunkte für zukünftige Forschung. Der Trainingscode, die Modellparameter und der technische Bericht wurden ebenfalls Open Source gestellt, um die weitere Forschung und den Austausch in der Wissenschaft und Industrie zu erleichtern.
Trainingscode: https://github.com/xiaomi-research/r1-aqa
Modellparameter: https://huggingface.co/mispeech/r1-aqa
Technischer Bericht: https://arxiv.org/abs/2503.11197
Interaktive Demo: https://120.48.108.147:7860/
Wichtigste Punkte:
🔍 Das Xiaomi-Großmodellteam erzielte durch einen verstärkenden Lernalgorithmus einen Durchbruch im Bereich der Audio-Inferenz mit einer Genauigkeit von 64,5 %.
📈 Der MMAU-Datensatz ist ein wichtiger Standard für die Audio-Inferenzfähigkeit. Die aktuelle Genauigkeit von menschlichen Experten beträgt 82,23 %.
💡 Die Forschungsergebnisse zeigen, dass der Echtzeit-Feedback-Mechanismus des verstärkenden Lernens für das Modelltraining effektiver ist. Zukünftige Forschung erfordert weitere Untersuchungen.