आज के तेजी से विकसित हो रहे कृत्रिम बुद्धिमत्ता के युग में, एक अंतरराष्ट्रीय शोध टीम यूरोप के एआई भाषा मॉडल के विकास के लिए मार्ग प्रशस्त कर रही है। उन्होंने MOSEL (Massive Open-source compliant Speech data for European Languages) नामक एक परियोजना शुरू की है, जो यूरोपीय संघ की 24 आधिकारिक भाषाओं के लिए एक व्यापक ओपन-सोर्स वॉयस डेटासेट तैयार करती है। यह पहल यूरोप में ओपन एआई भाषा मॉडल के विकास को बढ़ावा देने के लिए है, जो वर्तमान में अंग्रेजी डेटासेट और बड़े तकनीकी कंपनियों के स्वामित्व वाले सिस्टम द्वारा प्रभुत्व में है।
MOSEL परियोजना में CommonVoice, LibriSpeech और VoxPopuli जैसे प्रसिद्ध स्रोतों से 18 विभिन्न स्रोतों के वॉयस डेटा को एकत्रित किया गया है। यह विशाल डेटाबेस ट्रांसक्रिप्टेड वॉयस रिकॉर्डिंग और बिना लेबल वाले ऑडियो डेटा को शामिल करता है, जिसमें 505,000 घंटे का ट्रांसक्रिप्टेड डेटा विशेष रूप से मूल्यवान है।
हालांकि, विभिन्न भाषाओं के बीच डेटा का वितरण अत्यधिक असमान है। अंग्रेजी में 437,000 घंटे से अधिक का लेबल किया हुआ डेटा है, जबकि माल्टीज़ या आयरिश जैसी भाषाओं में केवल कुछ घंटों का डेटा है। संसाधनों की कमी वाली भाषाओं के डेटा की स्थिति को सुधारने के लिए, शोध टीम ने एक नवोन्मेषी विधि अपनाई: OpenAI के Whisper AI मॉडल का उपयोग करके, अतिरिक्त 441,000 घंटे के बिना लेबल वाले ऑडियो डेटा का स्वचालित ट्रांसक्रिप्शन किया।
शोध टीम ने स्पष्ट किया कि, हालांकि स्वचालित ट्रांसक्रिप्शन पूर्ण नहीं है, यह उन भाषाओं के लिए बहुत सारा प्रशिक्षण सामग्री प्रदान कर सकता है जिनके पास मानव ट्रांसक्रिप्टेड डेटा की कमी है। ये उत्पन्न ट्रांसक्रिप्टेड टेक्स्ट ज्ञान साझा करने वाले CC-BY लाइसेंस के तहत प्रकाशित किए गए हैं, जो संदर्भ के साथ स्वतंत्र उपयोग की अनुमति देते हैं।
स्वचालित ट्रांसक्रिप्शन की चुनौतियाँ माल्टीज़ भाषा के मामले में विशेष रूप से स्पष्ट हैं। Whisper मॉडल द्वारा माल्टीज़ भाषा को संसाधित करते समय शब्दों की त्रुटि दर 80% से अधिक है, जिसका अर्थ है कि औसतन हर पांच शब्दों में से चार गलत पहचाने जाते हैं। यह कुछ भाषाओं में स्वचालित प्रसंस्करण के संदर्भ में अभी भी मौजूद विशाल चुनौतियों को उजागर करता है।
फिर भी, शोध टीम का मानना है कि ये स्वचालित ट्रांसक्रिप्शन सुधार के लिए एक प्रारंभिक बिंदु के रूप में कार्य कर सकते हैं। वे प्रतिनिधित्व की कमी वाली भाषाओं के लिए अधिक डेटा एकत्र करने की योजना बना रहे हैं, ताकि MOSEL डेटाबेस को लगातार बेहतर बनाया जा सके।
MOSEL परियोजना का संपूर्ण डेटासेट GitHub पर मुफ्त में उपलब्ध है, जिसका उद्देश्य शोधकर्ताओं और डेवलपर्स को यूरोपीय भाषाओं के वॉयस डेटा तक आसान पहुंच प्रदान करना है। यह खुला साझा करने का कदम न केवल शोध समुदाय की सहयोग की भावना को दर्शाता है, बल्कि यूरोप के एआई भाषा मॉडल के विकास में नई ऊर्जा भी डालता है।
MOSEL परियोजना का महत्व केवल डेटा तक सीमित नहीं है। यह यूरोप में एआई क्षेत्र में तकनीकी स्वायत्तता की खोज का प्रतीक है, जो अधिक विविध और समावेशी एआई भाषा मॉडल के विकास को प्रोत्साहित कर सकता है। बहुभाषी ओपन-सोर्स डेटा प्रदान करके, MOSEL छोटे भाषाओं के एआई युग में संरक्षण और विकास के लिए मूल्यवान संसाधन प्रदान करता है, जिससे भाषा प्रसंस्करण में एआई तकनीक में पूर्वाग्रह और असमानता को कम करने में मदद मिलती है।
जैसे-जैसे MOSEL डेटाबेस में निरंतर सुधार और विस्तार होता है, हम यूरोपीय भाषाओं पर आधारित अधिक एआई अनुप्रयोगों और सेवाओं को देखने की उम्मीद कर सकते हैं। यह न केवल यूरोप की डिजिटल अर्थव्यवस्था के विकास को बढ़ावा देगा, बल्कि वैश्विक एआई भाषा तकनीक की विविधता में भी महत्वपूर्ण योगदान देगा।