Xiaomi तकनीक के आधिकारिक वीबो ने घोषणा की है कि Xiaomi के बड़े मॉडल टीम ने ऑडियो अनुमान के क्षेत्र में उल्लेखनीय प्रगति की है। DeepSeek-R1 से प्रेरित होकर, उन्होंने सबसे पहले बहु-मोडल ऑडियो समझ कार्यों में प्रबलित शिक्षण एल्गोरिथम लागू किया। टीम ने केवल एक हफ्ते में 64.5% की SOTA (State Of The Art) सटीकता के साथ, अंतर्राष्ट्रीय आधिकारिक MMAU ऑडियो समझ मूल्यांकन चार्ट में शीर्ष स्थान प्राप्त किया, और साथ ही संबंधित तकनीक को ओपन सोर्स भी किया।
MMAU (Massive Multi-Task Audio Understanding and Reasoning) मूल्यांकन सेट ऑडियो अनुमान क्षमता का परीक्षण करने का एक महत्वपूर्ण मानक है, जिसमें दस हजार वॉयस, पर्यावरण ध्वनि और संगीत नमूने शामिल हैं, जिसका उद्देश्य मॉडल के कई कौशल में प्रदर्शन का मूल्यांकन करना है। इस मूल्यांकन सेट पर मानव विशेषज्ञों की सटीकता 82.23% है, जबकि वर्तमान में इस चार्ट पर सबसे अच्छा प्रदर्शन करने वाला मॉडल OpenAI का GPT-4o है, जिसकी सटीकता 57.3% है, उसके बाद Google DeepMind का Gemini2.0Flash है, जिसकी सटीकता 55.6% है।
Xiaomi टीम के शोध में, उन्होंने शुरू में Tsinghua विश्वविद्यालय द्वारा जारी AVQA डेटासेट का उपयोग करके माइक्रो-ट्यूनिंग किया, और 51.8% की सटीकता प्राप्त की। लेकिन असली सफलता तब मिली जब DeepSeek-R1 के Group Relative Policy Optimization (GRPO) एल्गोरिथम को Qwen2-Audio-7B मॉडल में लागू किया गया, केवल AVQA के 38,000 प्रशिक्षण नमूनों के साथ 64.5% की सटीकता प्राप्त की गई, जो मौजूदा व्यावसायिक मॉडल से आगे निकल गया।
शोध दल ने पाया कि जब प्रशिक्षण प्रक्रिया के दौरान मॉडल को अनुमान प्रक्रिया को आउटपुट करने के लिए मजबूर किया जाता है, तो सटीकता घटकर 61.1% रह जाती है। यह दर्शाता है कि स्पष्ट सोच श्रृंखला आउटपुट मॉडल प्रशिक्षण के लिए फायदेमंद नहीं हो सकता है, प्रबलित शिक्षण की वास्तविक समय प्रतिक्रिया तंत्र मॉडल को उच्च-गुणवत्ता वाले उत्तरों के वितरण क्षेत्र को लॉक करने में अधिक मददगार है। हालाँकि उन्होंने उल्लेखनीय सटीकता हासिल की है, लेकिन वे अभी भी मानव विशेषज्ञों के स्तर से काफी दूर हैं।
Xiaomi के बड़े मॉडल टीम के प्रयोगात्मक परिणाम न केवल ऑडियो अनुमान के क्षेत्र में प्रबलित शिक्षण के अनूठे लाभों को दिखाते हैं, बल्कि भविष्य के शोध के लिए नए विचार भी प्रदान करते हैं। वे प्रशिक्षण कोड, मॉडल पैरामीटर और तकनीकी रिपोर्ट को भी ओपन सोर्स करेंगे, ताकि अकादमिक और औद्योगिक जगत आगे के शोध और आदान-प्रदान कर सकें।
प्रशिक्षण कोड: https://github.com/xiaomi-research/r1-aqa
मॉडल पैरामीटर: https://huggingface.co/mispeech/r1-aqa
तकनीकी रिपोर्ट: https://arxiv.org/abs/2503.11197
इंटरैक्टिव डेमो: https://120.48.108.147:7860/
मुख्य बातें:
🔍 Xiaomi के बड़े मॉडल टीम ने प्रबलित शिक्षण एल्गोरिथम के माध्यम से ऑडियो अनुमान के क्षेत्र में सफलता प्राप्त की है, जिसकी सटीकता 64.5% है।
📈 MMAU मूल्यांकन सेट ऑडियो अनुमान क्षमता का एक महत्वपूर्ण मानक है, वर्तमान में मानव विशेषज्ञों की सटीकता 82.23% है।
💡 शोध के परिणाम बताते हैं कि प्रबलित शिक्षण की वास्तविक समय प्रतिक्रिया तंत्र मॉडल प्रशिक्षण के लिए अधिक प्रभावी है, भविष्य के शोध में गहन अन्वेषण की आवश्यकता है।