Das Xiaomi-Team für große Sprachmodelle hat kürzlich einen Durchbruch im Bereich des Audio-Schlussfolgerns erzielt. Durch die erfolgreiche Anwendung von Reinforcement-Learning-Algorithmen auf Multimodal-Audio-Verständnisaufgaben erreichte das Team eine Genauigkeit von 64,5 % und sicherte sich damit den ersten Platz im internationalen MMAU-Audio-Verständnis-Benchmark.

Der MMAU (Massive Multi-Task Audio Understanding and Reasoning) Benchmark ist ein wichtiger Maßstab für die Fähigkeit zur Audio-Schlussfolgerung. Er testet die Leistung von Modellen in komplexen Schlussfolgerungsaufgaben, indem er verschiedene Audio-Beispiele analysiert, die Sprache, Umgebungsgeräusche und Musik enthalten. Die Genauigkeit menschlicher Experten liegt bei 82,23 %, während das bisher beste Modell, GPT-4o von OpenAI, eine Genauigkeit von 57,3 % erreicht. Vor diesem Hintergrund ist der Erfolg des Xiaomi-Teams besonders bemerkenswert.

image.png

Das Team verwendete die Group Relative Policy Optimization (GRPO)-Methode von DeepSeek-R1. Diese Methode ermöglicht es dem Modell durch einen „Trial-and-Error“-Mechanismus mit Belohnungssystem, sich selbstständig weiterzuentwickeln und Fähigkeiten ähnlich menschlicher Reflexion und Schlussfolgerung zu zeigen. Bemerkenswert ist, dass das Modell des Xiaomi-Teams trotz nur 38.000 Trainingssamples eine Genauigkeit von 64,5 % im MMAU-Benchmark erreichte – fast 10 Prozentpunkte mehr als der bisherige Spitzenreiter.

Darüber hinaus zeigten die Experimente, dass herkömmliche explizite Denkketten-Ausgabemethoden zu einer geringeren Genauigkeit des Modells führten, was den Vorteil impliziter Schlussfolgerungen im Training unterstreicht. Trotz des bemerkenswerten Erfolgs ist sich das Xiaomi-Team bewusst, dass noch ein Weg bis zum Niveau menschlicher Experten besteht. Das Team plant, die Reinforcement-Learning-Strategie weiter zu optimieren, um eine bessere Schlussfolgerungsfähigkeit zu erreichen.

Dieser Erfolg zeigt nicht nur das Potenzial von Reinforcement Learning im Bereich des Audio-Verständnisses, sondern ebnet auch den Weg für eine intelligente Hörwelt der Zukunft. Da Maschinen nicht nur Geräusche „hören“, sondern auch die zugrunde liegende Kausalität „verstehen“, eröffnen sich neue Möglichkeiten für intelligente Audiotechnologien. Das Xiaomi-Team wird den Trainingscode und die Modellparameter Open Source bereitstellen, um weitere Forschung und Austausch in Wissenschaft und Industrie zu ermöglichen.

Trainingscode: https://github.com/xiaomi-research/r1-aqa

Modellparameter: https://huggingface.co/mispeech/r1-aqa

Technischer Bericht: https://arxiv.org/abs/2503.11197

Interaktive Demo: https://120.48.108.147:7860/