मोअर थ्रेड ने हाल ही में अपने ऑडियो समझने के बड़े मॉडल MooER (मोअर) को ओपन-सोर्स करने की घोषणा की, जो घरेलू पूर्ण-कार्यात्मक GPU पर प्रशिक्षण और निष्पादन करने वाला पहला बड़ा ओपन-सोर्स वॉयस मॉडल है। MooER न केवल चीनी और अंग्रेजी भाषाओं की वॉयस पहचान का समर्थन करता है, बल्कि इसमें चीनी से अंग्रेजी में वॉयस अनुवाद करने की क्षमता भी है, जो इसकी बहुभाषी प्रोसेसिंग क्षमताओं को प्रदर्शित करता है।

MooER ने एक अभिनव तीन-भागीय मॉडल संरचना अपनाई है, जिसमें Encoder, Adapter और Decoder (Large Language Model, LLM) शामिल हैं। इस संरचना का डिज़ाइन मॉडल को मूल ऑडियो को प्रभावी ढंग से संसाधित करने, विशेषताएँ निकालने और वॉयस पहचान और अनुवाद जैसे डाउनस्ट्रीम कार्यों को निष्पादित करने में सक्षम बनाता है। प्रोजेक्ट टीम ने 5000 घंटे के डेटा पर प्रशिक्षण प्राप्त मॉडल और निष्पादन कोड को ओपन-सोर्स किया है, और आगे 80000 घंटे के डेटा पर प्रशिक्षण प्राप्त संवर्धित मॉडल के लिए कोड को ओपन-सोर्स करने की योजना बना रही है।

QQ20240826-143012.png

कई प्रसिद्ध ओपन-सोर्स ऑडियो समझने वाले बड़े मॉडलों के साथ तुलना परीक्षणों में, MooER-5K ने उत्कृष्ट प्रदर्शन किया। चीनी परीक्षण में, इसका अक्षर त्रुटि दर (CER) 4.21% तक पहुंच गया; अंग्रेजी परीक्षण में, शब्द त्रुटि दर (WER) 17.98% थी, जो अन्य शीर्ष मॉडलों की तुलना में बेहतर या समान प्रदर्शन दर्शाती है। विशेष रूप से उल्लेखनीय है कि Covost2zh2en चीनी से अंग्रेजी परीक्षण सेट पर, MooER का BLEU स्कोर 25.2 तक पहुंच गया, जो अन्य ओपन-सोर्स मॉडलों से काफी आगे है, और यह औद्योगिक स्तर के अनुप्रयोगों के साथ तुलना करने के स्तर तक पहुंच गया है।

और भी रोमांचक बात यह है कि 80000 घंटे के डेटा पर प्रशिक्षित MooER-80k मॉडल ने अधिक शक्तिशाली प्रदर्शन दिखाया है, जिसमें चीनी परीक्षण सेट पर CER को और घटाकर 3.50% किया गया है, जबकि अंग्रेजी परीक्षण सेट पर WER को भी 12.66% तक अनुकूलित किया गया है, जो विकास की विशाल संभावनाओं को दर्शाता है।

मोअर थ्रेड द्वारा MooER को ओपन-सोर्स करने से न केवल घरेलू GPU के AI क्षेत्र में आवेदन की क्षमता प्रदर्शित हुई है, बल्कि इसने वैश्विक ऑडियो AI तकनीक के विकास में नई ऊर्जा भी भरी है। अधिक प्रशिक्षण डेटा और कोड के ओपन-सोर्स होने के साथ, उद्योग को उम्मीद है कि MooER वॉयस पहचान, अनुवाद आदि क्षेत्रों में और अधिक महत्वपूर्ण प्रगति लाएगा, जिससे ऑडियो AI तकनीक का प्रसार और नवाचार होगा।

पता: https://arxiv.org/pdf/2408.05101