वॉयस रिकग्निशन के क्षेत्र में, चीनी पहचान की तकनीक के विकास पर हमेशा ध्यान दिया गया है। हाल ही में, शियाओहोंगशु की FireRed टीम ने एक नया ओपन-सोर्स वॉयस रिकग्निशन मॉडल - FireRedASR जारी किया। यह बड़े मॉडल पर आधारित वॉयस रिकग्निशन सिस्टम कई मानक परीक्षण सेट पर उत्कृष्ट परिणाम प्राप्त करता है, जो चीनी वॉयस रिकग्निशन तकनीक में एक महत्वपूर्ण प्रगति को दर्शाता है।

144649d6-0590-4a91-b080-0db2afdf54a9.png

FireRedASR का मुख्य मापदंड चरित्र त्रुटि दर (CER) है, यह मापदंड जितना कम होगा, मॉडल की पहचान प्रभावशीलता उतनी ही बेहतर होगी। हाल की सार्वजनिक परीक्षणों में, FireRedASR का CER 3.05% तक पहुँच गया, जो पिछले सर्वोत्तम मॉडल Seed-ASR की तुलना में 8.4% की कमी है। यह परिणाम FireRed टीम की वॉयस रिकग्निशन तकनीक में नवाचार क्षमता को दर्शाता है।

FireRedASR मॉडल दो मुख्य संरचनाओं में विभाजित है: FireRedASR-LLM और FireRedASR-AED। पूर्व चरम वॉयस रिकग्निशन सटीकता पर केंद्रित है, जबकि बाद वाला सटीकता और अनुमानित दक्षता के बीच एक अच्छा संतुलन स्थापित करता है। टीम ने विभिन्न आकार के मॉडल और अनुमानित कोड प्रदान किए हैं, ताकि विभिन्न अनुप्रयोग परिदृश्यों की आवश्यकताओं को पूरा किया जा सके।

कई दैनिक अनुप्रयोग परिदृश्यों में, FireRedASR ने भी शक्तिशाली प्रदर्शन दिखाया है। शॉर्ट वीडियो, लाइव स्ट्रीमिंग और वॉयस इनपुट जैसे कई स्रोतों से बने परीक्षण सेट में, FireRedASR-LLM का CER उद्योग के अग्रणी सेवा प्रदाताओं की तुलना में 23.7% से 40% तक कम हो गया। विशेष रूप से गीतों की पहचान की आवश्यकता वाले परिदृश्यों में, इस मॉडल का प्रदर्शन विशेष रूप से उत्कृष्ट रहा, CER ने 50.2% से 66.7% की सापेक्ष कमी हासिल की।

इसके अलावा, FireRedASR ने चीनी बोलियों और अंग्रेजी परिदृश्यों में भी उत्कृष्ट प्रदर्शन किया है, इसका CER KeSpeech और LibriSpeech परीक्षण सेट पर पिछले ओपन-सोर्स मॉडलों की तुलना में महत्वपूर्ण रूप से बेहतर है, जो इसकी विभिन्न भाषा वातावरणों में मजबूती और अनुकूलनशीलता को साबित करता है।

FireRed टीम इस नए मॉडल को ओपन-सोर्स करके वॉयस रिकग्निशन तकनीक के विकास और अनुप्रयोग को बढ़ावा देने की उम्मीद करती है, ताकि वॉयस इंटरैक्शन के भविष्य में योगदान दिया जा सके। सभी मॉडल और कोड GitHub पर सार्वजनिक रूप से उपलब्ध हैं, और अधिक डेवलपर्स और शोधकर्ताओं को इसमें भाग लेने के लिए प्रोत्साहित किया जाता है।

huggingface:https://huggingface.co/FireRedTeam

github:https://github.com/FireRedTeam/FireRedASR

मुख्य बिंदु:

- 🎤 FireRedASR शियाओहोंगशु टीम द्वारा जारी किया गया नया ओपन-सोर्स वॉयस रिकग्निशन मॉडल है, जो चीनी पहचान में उत्कृष्ट सटीकता दिखाता है।

- 🚀 मॉडल FireRedASR-LLM और FireRedASR-AED में विभाजित है, जो क्रमशः सटीकता और दक्षता की आवश्यकताओं को पूरा करता है।

- 🌍 FireRedASR विभिन्न परिदृश्यों में उत्कृष्ट प्रदर्शन करता है, जो मंदारिन, चीनी बोलियों और अंग्रेजी जैसी विभिन्न भाषा वातावरणों के लिए उपयुक्त है।