हाल ही में, मूर थ्रेड्स कंपनी ने अपने विकसित ऑडियो समझने वाले बड़े मॉडल - MooER (मूर) को आधिकारिक रूप से ओपन-सोर्स करने की घोषणा की। यह उद्योग का पहला बड़ा ओपन-सोर्स वॉइस मॉडल है जो घरेलू पूर्ण-कार्यात्मक GPU पर प्रशिक्षण और निष्पादन के लिए प्रशिक्षित किया गया है, जो मूर थ्रेड्स की आर्टिफिशियल इंटेलिजेंस क्षेत्र में नवीनतम उपलब्धियों को प्रदर्शित करता है।

MooER बड़े मॉडल ने मूर थ्रेड्स के क्यूएई (KUAE) बुद्धिमान गणना प्लेटफ़ॉर्म पर केवल 38 घंटे में 5000 घंटे ऑडियो डेटा और छद्म लेबल का प्रशिक्षण पूरा किया। यह उपलब्धि कंपनी के स्व-विकसित नवोन्मेषी एल्गोरिदम और कुशल गणना संसाधनों के संयोजन के कारण संभव हुई। MooER न केवल चीनी और अंग्रेजी वॉयस पहचान का समर्थन करता है, बल्कि इसमें चीनी से अंग्रेजी में वॉयस अनुवाद की क्षमता भी है, और यह कई वॉयस पहचान क्षेत्रों के परीक्षण सेट में उत्कृष्ट प्रदर्शन प्रदर्शित करता है। विशेष रूप से, Covost2 चीनी से अंग्रेजी परीक्षण सेट में, MooER-5K ने 25.2 का BLEU स्कोर प्राप्त किया, जो उद्योग स्तर के प्रभाव के करीब है।

微信截图_20240826083635.png

मूर थ्रेड्स AI टीम ने निष्पादन कोड और 5000 घंटे डेटा प्रशिक्षण का मॉडल ओपन-सोर्स किया है, और 80,000 घंटे डेटा प्रशिक्षण के आधार पर और अधिक प्रशिक्षण कोड और मॉडल को ओपन-सोर्स करने की योजना बना रही है। MooER का मॉडल संरचना में एन्कोडर, एडेप्टर और डिकोडर तीन भाग शामिल हैं, जो एन्कोडर और LLM मॉड्यूल को प्रारंभ करने के लिए ओपन-सोर्स Paraformer वॉयस एन्कोडर, Qwen2-7B-instruct बड़े भाषा मॉडल का उपयोग करता है।

तकनीकी तुलना में, MooER-5K ने चीनी और अंग्रेजी परीक्षण सेट पर अन्य ओपन-सोर्स मॉडलों की तुलना में बेहतर प्रदर्शन किया। मूर थ्रेड्स ने इस ओपन-सोर्स परियोजना के माध्यम से डेटा संसाधनों और गणना संसाधनों की सीमाओं वाले डेवलपर्स के लिए मूल्यवान संदर्भ और समर्थन प्रदान किया है।

GitHub:https://github.com/MooreThreads/MooER