हाल ही में, Xiaomi के बड़े मॉडल टीम ने ऑडियो रीज़निंग के क्षेत्र में एक बड़ी सफलता हासिल की है। उन्होंने सफलतापूर्वक कई मोड वाले ऑडियो समझने के काम में रीइन्फ़ोर्समेंट लर्निंग एल्गोरिथ्म का इस्तेमाल किया है, जिसकी सटीकता 64.5% तक पहुँच गई है। इस उपलब्धि के कारण उन्हें अंतरराष्ट्रीय स्तर के MMAU ऑडियो समझने के मूल्यांकन में पहला स्थान मिला है। इस सफलता के पीछे DeepSeek-R1 से प्रेरणा मिली है।

MMAU (Massive Multi-Task Audio Understanding and Reasoning) मूल्यांकन सेट ऑडियो रीज़निंग क्षमता को मापने का एक महत्वपूर्ण मानदंड है। यह आवाज़, पर्यावरणीय आवाज़ और संगीत सहित कई तरह के ऑडियो नमूनों का विश्लेषण करके, जटिल रीज़निंग कार्यों में मॉडल के प्रदर्शन का परीक्षण करता है। मानव विशेषज्ञों की सटीकता 82.23% है, जबकि वर्तमान सूची में सबसे अच्छा प्रदर्शन करने वाला मॉडल OpenAI का GPT-4o है, जिसकी सटीकता 57.3% है। ऐसे में Xiaomi टीम की उपलब्धि और भी ज़्यादा ध्यान खींचती है।

image.png

टीम के प्रयोग में, उन्होंने DeepSeek-R1 के Group Relative Policy Optimization (GRPO) तरीके का इस्तेमाल किया। यह तरीका "प्रयास-इनाम" तंत्र के माध्यम से मॉडल को स्वतः विकसित करने में मदद करता है, जो मानव जैसे चिंतन और तर्क क्षमता को दर्शाता है। ध्यान देने योग्य बात यह है कि रीइन्फ़ोर्समेंट लर्निंग के समर्थन से, केवल 38,000 प्रशिक्षण नमूनों का उपयोग करके भी, Xiaomi टीम का मॉडल MMAU मूल्यांकन सेट पर 64.5% की सटीकता प्राप्त करने में सक्षम था, जो वर्तमान पहले स्थान से लगभग 10 प्रतिशत अधिक है।

इसके अलावा, प्रयोग में यह भी पाया गया कि पारंपरिक स्पष्ट सोच श्रृंखला आउटपुट तरीका मॉडल की सटीकता को कम कर देता है, जो प्रशिक्षण में निहित रीज़निंग के लाभ को दर्शाता है। उल्लेखनीय उपलब्धि के बावजूद, Xiaomi टीम को यह भी एहसास है कि मानव विशेषज्ञों के स्तर तक पहुँचने में अभी भी कुछ दूरी है। टीम ने कहा कि वे बेहतर रीज़निंग क्षमता प्राप्त करने के लिए रीइन्फ़ोर्समेंट लर्निंग रणनीतियों को बेहतर बनाना जारी रखेंगे।

इस शोध की सफलता न केवल ऑडियो समझने के क्षेत्र में रीइन्फ़ोर्समेंट लर्निंग की क्षमता को दिखाती है, बल्कि भविष्य के बुद्धिमान श्रवण युग के लिए भी मार्ग प्रशस्त करती है। जैसे-जैसे मशीनें न केवल आवाज़ को "सुन" पाएँगी, बल्कि उसके पीछे के कारणों को भी "समझ" पाएँगी, बुद्धिमान ऑडियो तकनीक नए विकास के अवसरों का अनुभव करेगी। Xiaomi टीम प्रशिक्षण कोड और मॉडल पैरामीटर को ओपन सोर्स भी करेगी ताकि अकादमिक और औद्योगिक क्षेत्रों में आगे के शोध और आदान-प्रदान को बढ़ावा मिल सके।

प्रशिक्षण कोड: https://github.com/xiaomi-research/r1-aqa

मॉडल पैरामीटर: https://huggingface.co/mispeech/r1-aqa

तकनीकी रिपोर्ट: https://arxiv.org/abs/2503.11197

इंटरैक्टिव डेमो: https://120.48.108.147:7860/