वॉयस रिकग्निशन तकनीक हमेशा से आर्टिफिशियल इंटेलिजेंस के विकास के प्रमुख क्षेत्रों में से एक रही है। और आज, बाइटडांस द्वारा लॉन्च किया गया Seed-ASR इंजन, भाषा और बोली के बीच की दीवारों को पूरी तरह से तोड़ रहा है, इस तकनीक में नई जान डाल रहा है।

Seed-ASR ने 2000万 घंटे से अधिक वॉयस डेटा और लगभग 90万 घंटे के पेयर डेटा का प्रशिक्षण लिया है, जो इसकी उत्कृष्ट पहचान क्षमता को दर्शाता है। यह न केवल मानक मंदारिन को सटीकता से पहचान सकता है, बल्कि 13 चीनी बोलियों और 7 विदेशी भाषाओं को भी सही ढंग से ट्रांसक्राइब कर सकता है, जिसमें विभिन्न उच्चारणों वाली अंग्रेजी भी शामिल है। यह निश्चित रूप से अंतर-भाषाई संवाद के लिए नए संभावनाओं का द्वार खोलता है।

Seed-ASR का प्रमुख लाभ इसकी उत्कृष्ट संदर्भ संवेदनशीलता है। यह ऐतिहासिक संवाद रिकॉर्ड, बैठक के मिनट्स आदि की जानकारी को एकीकृत कर सकता है, जिससे यह नाम, स्थान और कीवर्ड को अधिक सटीकता से पहचानता है। यह इसे विशेष परिदृश्यों में विशेष रूप से प्रभावी बनाता है, जिससे पहचान सटीकता में काफी वृद्धि होती है।

image.png

चाहे वह सरल दैनिक संवाद हो या जटिल बैठकें, Seed-ASR हमेशा कुशलता से काम करता है। यहाँ तक कि जब कई लोग बात कर रहे हों या बैकग्राउंड में शोर हो, यह भी सटीकता से सामग्री को ट्रांसक्राइब कर सकता है। वीडियो और लाइव वॉयस को संभालते समय, यह विभिन्न ऑडियो गुणवत्ता और वातावरण के लिए भी अनुकूलित हो सकता है।

Seed-ASR विभिन्न पेशेवर क्षेत्रों की शब्दावली को भी पहचान सकता है, जिसमें चिकित्सा, तकनीक, ऑटोमोबाइल और यहां तक कि संगीत शामिल है। यह इसे स्मार्ट सहायक और वॉयस सर्च परिदृश्यों में चमकने का अवसर देता है, जिससे उपयोगकर्ता अनुभव में काफी सुधार होता है।

प्रोजेक्ट का पता: https://bytedancespeech.github.io/seedasr_tech_report/