हाल ही में, मूर थ्रेड्स कंपनी ने अपने विकसित ऑडियो समझने वाले बड़े मॉडल - MooER (मूर) को आधिकारिक रूप से ओपन-सोर्स करने की घोषणा की। यह उद्योग का पहला बड़ा ओपन-सोर्स वॉइस मॉडल है जो घरेलू पूर्ण-कार्यात्मक GPU पर प्रशिक्षण और निष्पादन के लिए प्रशिक्षित किया गया है, जो मूर थ्रेड्स की आर्टिफिशियल इंटेलिजेंस क्षेत्र में नवीनतम उपलब्धियों को प्रदर्शित करता है।
MooER बड़े मॉडल ने मूर थ्रेड्स के क्यूएई (KUAE) बुद्धिमान गणना प्लेटफ़ॉर्म पर केवल 38 घंटे में 5000 घंटे ऑडियो डेटा और छद्म लेबल का प्रशिक्षण पूरा किया। यह उपलब्धि कंपनी के स्व-विकसित नवोन्मेषी एल्गोरिदम और कुशल गणना संसाधनों के संयोजन के कारण संभव हुई। MooER न केवल चीनी और अंग्रेजी वॉयस पहचान का समर्थन करता है, बल्कि इसमें चीनी से अंग्रेजी में वॉयस अनुवाद की क्षमता भी है, और यह कई वॉयस पहचान क्षेत्रों के परीक्षण सेट में उत्कृष्ट प्रदर्शन प्रदर्शित करता है। विशेष रूप से, Covost2 चीनी से अंग्रेजी परीक्षण सेट में, MooER-5K ने 25.2 का BLEU स्कोर प्राप्त किया, जो उद्योग स्तर के प्रभाव के करीब है।
मूर थ्रेड्स AI टीम ने निष्पादन कोड और 5000 घंटे डेटा प्रशिक्षण का मॉडल ओपन-सोर्स किया है, और 80,000 घंटे डेटा प्रशिक्षण के आधार पर और अधिक प्रशिक्षण कोड और मॉडल को ओपन-सोर्स करने की योजना बना रही है। MooER का मॉडल संरचना में एन्कोडर, एडेप्टर और डिकोडर तीन भाग शामिल हैं, जो एन्कोडर और LLM मॉड्यूल को प्रारंभ करने के लिए ओपन-सोर्स Paraformer वॉयस एन्कोडर, Qwen2-7B-instruct बड़े भाषा मॉडल का उपयोग करता है।
तकनीकी तुलना में, MooER-5K ने चीनी और अंग्रेजी परीक्षण सेट पर अन्य ओपन-सोर्स मॉडलों की तुलना में बेहतर प्रदर्शन किया। मूर थ्रेड्स ने इस ओपन-सोर्स परियोजना के माध्यम से डेटा संसाधनों और गणना संसाधनों की सीमाओं वाले डेवलपर्स के लिए मूल्यवान संदर्भ और समर्थन प्रदान किया है।
GitHub:https://github.com/MooreThreads/MooER