भाषण AI क्षेत्र में कुछ ध्यान आकर्षित करने के बाद, OpenAI ने इस क्षेत्र में अपनी खोज को नहीं रोका है, अब ChatGPT के निर्माता ने फिर से तीन नए स्व-विकसित वॉयस मॉडल लॉन्च किए हैं, जिनके नाम हैं: gpt-4o-transcribe, gpt-4o-mini-transcribe और gpt-4o-mini-tts। इनमें सबसे ज़्यादा ध्यान खींचने वाला gpt-4o-transcribe है।
वर्तमान में, ये नए मॉडल पहले ही एप्लीकेशन प्रोग्रामिंग इंटरफ़ेस (API) के माध्यम से तीसरे पक्ष के डेवलपर्स के लिए उपलब्ध कराए गए हैं, डेवलपर्स इनका उपयोग अधिक बुद्धिमान एप्लिकेशन बनाने के लिए कर सकते हैं। साथ ही, OpenAI ने OpenAI.fm नामक एक प्रदर्शन वेबसाइट भी प्रदान की है, ताकि व्यक्तिगत उपयोगकर्ता प्रारंभिक अनुभव प्राप्त कर सकें।
मुख्य विशेषताएँ
तो, यह बहुप्रतीक्षित gpt-4o-transcribe आखिरकार क्या खास है? संक्षेप में, इसे OpenAI द्वारा दो साल पहले जारी किए गए ओपन-सोर्स वॉयस-टू-टेक्स्ट मॉडल Whisper का अपग्रेडेड वर्जन माना जा सकता है, जिसका लक्ष्य कम शब्द त्रुटि दर और बेहतर प्रदर्शन प्रदान करना है।
OpenAI के आधिकारिक आंकड़ों के अनुसार, उद्योग के मानक 33 भाषाओं के परीक्षण में, gpt-4o-transcribe की त्रुटि दर Whisper की तुलना में काफी कम हो गई है, खासकर अंग्रेजी में, त्रुटि दर केवल 2.46% है! उच्च-परिशुद्धता वॉयस ट्रांसक्रिप्शन की आवश्यकता वाले परिदृश्यों के लिए, यह निस्संदेह एक बड़ी प्रगति है।
इससे भी ज़्यादा उल्लेखनीय यह है कि यह नया मॉडल विभिन्न जटिल वातावरणों में उत्कृष्ट प्रदर्शन बनाए रखता है। चाहे वह शोरगुल वाला माहौल हो, विभिन्न उच्चारण हों, या तेज़ या धीमी गति से बोली जाने वाली भाषा हो, gpt-4o-transcribe अधिक सटीक ट्रांसक्रिप्शन परिणाम प्रदान कर सकता है, और यह 100 से अधिक भाषाओं का भी समर्थन करता है।
ट्रांसक्रिप्शन की सटीकता को और बेहतर बनाने के लिए, gpt-4o-transcribe में शोर निराकरण और अर्थपूर्ण ध्वनि गतिविधि पहचान तकनीक भी शामिल है।
OpenAI के तकनीकी विशेषज्ञ Jeff Harris ने बताया कि बाद वाला मॉडल को यह निर्धारित करने में मदद कर सकता है कि वक्ता ने एक पूरा विचार पूरा कर लिया है या नहीं, जिससे वाक्य विराम त्रुटियों से बचा जा सकता है और समग्र ट्रांसक्रिप्शन गुणवत्ता में सुधार किया जा सकता है। इसके अलावा, gpt-4o-transcribe धाराप्रवाह वॉयस-टू-टेक्स्ट का भी समर्थन करता है, डेवलपर्स लगातार ऑडियो इनपुट कर सकते हैं और वास्तविक समय में टेक्स्ट परिणाम प्राप्त कर सकते हैं, जिससे बातचीत अधिक स्वाभाविक लगती है।
ध्यान देने योग्य बात यह है कि gpt-4o-transcribe मॉडल परिवार में वर्तमान में "वक्ता पृथक्करण" (diarization) की सुविधा नहीं है, अर्थात, यह मुख्य रूप से प्राप्त ऑडियो (जिसमें कई लोगों की आवाज हो सकती है) को एकीकृत रूप से टेक्स्ट में ट्रांसक्राइब करने पर केंद्रित है, न कि विभिन्न वक्ताओं को अलग और चिह्नित करने पर।
हालांकि यह कुछ ऐसे मामलों में सीमित हो सकता है जहाँ वक्ताओं के बीच अंतर करना आवश्यक है, लेकिन समग्र ट्रांसक्रिप्शन सटीकता में सुधार के मामले में इसका लाभ अभी भी महत्वपूर्ण है।
डेवलपर्स के लिए पहले: API इंटरफ़ेस खोला गया है
वर्तमान में, gpt-4o-transcribe OpenAI के API इंटरफ़ेस के माध्यम से डेवलपर्स के लिए उपलब्ध है। इसका मतलब है कि डेवलपर्स इस शक्तिशाली वॉयस ट्रांसक्रिप्शन क्षमता को अपने एप्लिकेशन में जल्दी से एकीकृत कर सकते हैं, जिससे उपयोगकर्ताओं को अधिक सुविधाजनक वॉयस इंटरैक्शन अनुभव मिल सकता है।
OpenAI द्वारा लाइव प्रसारण में प्रदर्शन के अनुसार, GPT-4o जैसे टेक्स्ट लार्ज मॉडल पर पहले से ही आधारित अनुप्रयोगों के लिए, वॉयस इंटरैक्शन फ़ंक्शन को जोड़ने के लिए लगभग नौ लाइनों की कोड की आवश्यकता होती है। उदाहरण के लिए, ई-कॉमर्स एप्लिकेशन ऑर्डर जानकारी के बारे में उपयोगकर्ता के प्रश्नों का जवाब देने के लिए जल्दी से वॉयस रिस्पांस लागू कर सकते हैं।
हालांकि, OpenAI ने यह भी कहा है कि ChatGPT की लागत और प्रदर्शन की विशिष्ट आवश्यकताओं को ध्यान में रखते हुए, ये नए मॉडल अभी ChatGPT में सीधे लागू नहीं होंगे, लेकिन यह अनुमान लगाया गया है कि भविष्य में धीरे-धीरे एकीकरण किया जाएगा। कम विलंबता और वास्तविक समय वॉयस इंटरैक्शन की तलाश करने वाले डेवलपर्स के लिए, OpenAI अपने रीयलटाइम API में वॉयस-टू-वॉयस मॉडल का उपयोग करने की सिफारिश करता है।
अपनी शक्तिशाली वॉयस ट्रांसक्रिप्शन क्षमता के साथ, gpt-4o-transcribe कई क्षेत्रों में अपनी क्षमता दिखा सकता है। OpenAI का मानना है कि जैसे ग्राहक कॉल सेंटर, स्वचालित मीटिंग मिनट पीढ़ी और AI-संचालित स्मार्ट असिस्टेंट जैसे परिदृश्य इस तकनीक के लिए बहुत उपयुक्त हैं। कुछ कंपनियों ने जो नए मॉडल का अनुभव कर चुके हैं, उन्होंने प्रतिक्रिया दी है कि OpenAI के ऑडियो मॉडल ने वॉयस AI के प्रदर्शन में उल्लेखनीय रूप से सुधार किया है।
निश्चित रूप से, OpenAI को अन्य वॉयस AI कंपनियों से प्रतिस्पर्धा का भी सामना करना पड़ रहा है, जैसे कि ElevenLabs द्वारा लॉन्च किया गया Scribe मॉडल, जिसमें कम त्रुटि दर और वक्ता पृथक्करण फ़ंक्शन भी है। इसके अलावा, Hume AI के Octave TTS मॉडल उच्चारण और भावना नियंत्रण के मामले में अधिक परिष्कृत अनुकूलन विकल्प प्रदान करते हैं। ओपन-सोर्स समुदाय में भी लगातार उन्नत वॉयस मॉडल सामने आ रहे हैं।
OpenAI द्वारा जारी किए गए नए वॉयस मॉडल, जैसे gpt-4o-transcribe, ने वॉयस ट्रांसक्रिप्शन क्षेत्र में अपनी मजबूत क्षमता और संभावना दिखाई है। हालाँकि यह वर्तमान में मुख्य रूप से डेवलपर्स के लिए है, लेकिन वॉयस इंटरैक्शन अनुभव को बेहतर बनाने में इसका महत्व नज़रअंदाज़ नहीं किया जा सकता है। भविष्य में, जैसे-जैसे तकनीक विकसित होती जाएगी, हम अधिक आश्चर्यजनक वॉयस AI अनुप्रयोगों को देख सकते हैं।
वेबसाइट प्रवेश द्वार:https://www.openai.fm/