आज, OpenAI ने अपने रियल-टाइम API में अपडेट की घोषणा की, जो अभी भी परीक्षण चरण में है। इस अपडेट की विशेषता पांच नए वॉयस विकल्पों का परिचय है, जो वॉयस-टू-वॉयस अनुप्रयोगों के लिए डिज़ाइन किए गए हैं, साथ ही संबंधित कैशिंग लागतों को कम किया गया है, जिससे डेवलपर्स के लिए इसका उपयोग करना अधिक किफायती हो गया है।

475c4d1eaa6e3bc47f3db45d7c4ba540.png

नए पेश किए गए पांच वॉयस में, OpenAI ने X पर एक लेख में तीन नई आवाज़ें, Ash, Verse और एक ब्रिटिश Ballad जैसी आवाज़ें प्रदर्शित की हैं। ये आवाज़ें न केवल अधिक जीवंत और समायोज्य हैं, बल्कि एक अधिक स्वाभाविक संवाद अनुभव भी प्रदान करती हैं। OpenAI ने अपने API दस्तावेज़ में उल्लेख किया है कि यह मूल वॉयस-टू-वॉयस फ़ंक्शन मध्यवर्ती पाठ प्रारूप प्रसंस्करण को समाप्त करता है, जिससे कम विलंबता और अधिक सूक्ष्मता के साथ आउटपुट प्राप्त होता है।

हालांकि, OpenAI ने उपयोगकर्ताओं को यह भी याद दिलाया कि चूंकि रियल-टाइम API अभी भी परीक्षण चरण में है, इसलिए वर्तमान में क्लाइंट प्रमाणीकरण उपलब्ध नहीं है। इसके अलावा, रियल-टाइम ऑडियो प्रसंस्करण नेटवर्क की स्थितियों से प्रभावित हो सकता है, जिससे बड़े पैमाने पर ऑडियो ट्रांसमिशन में चुनौतियाँ आती हैं। OpenAI ने उल्लेख किया कि जब नेटवर्क की स्थिति अस्थिर होती है, तो ऑडियो के विश्वसनीय प्रसारण को सुनिश्चित करना वास्तव में एक कठिन कार्य होता है।

OpenAI के वॉयस तकनीक के विकास की यात्रा भी विवादास्पद रही है। इस वर्ष मार्च में, उन्होंने "Voice Engine" नामक एक वॉयस क्लोन प्लेटफ़ॉर्म पेश किया, जो ElevenLabs के साथ प्रतिस्पर्धा करने का प्रयास कर रहा था, लेकिन यह केवल कुछ शोधकर्ताओं के लिए उपलब्ध था। GPT-4o और वॉयस मोड के प्रदर्शन के साथ, OpenAI ने मई में "Sky" नामक वॉयस उपयोग को निलंबित कर दिया, क्योंकि हॉलीवुड की अभिनेत्री स्कारलेट जोहानसन ने इस पर असंतोष व्यक्त किया, यह कहते हुए कि यह उसकी आवाज़ के बहुत समान था।

सितंबर में, OpenAI ने अपने भुगतान किए गए सब्सक्रिप्शन उपयोगकर्ताओं के लिए ChatGPT के उन्नत वॉयस मोड को पेश किया, जिसमें ChatGPT Plus, Enterprise, Teams और Edu जैसे उपयोगकर्ता शामिल हैं। इस वॉयस-टू-वॉयस तकनीक के माध्यम से, कंपनियाँ तेजी से वास्तविक समय में प्रतिक्रियाएँ उत्पन्न कर सकती हैं, जिससे ग्राहक सेवा की दक्षता में बहुत सुधार होता है।

 लागत में कमी, 50% से अधिक

रियल-टाइम API की मूल्य निर्धारण के बारे में, OpenAI ने पहले की घोषणा में मिनट के ऑडियो इनपुट के लिए $0.06 और ऑडियो आउटपुट के लिए $0.24 की कीमत निर्धारित की थी, जो डेवलपर्स के लिए अपेक्षाकृत अधिक थी। हालाँकि, इस अपडेट के बाद, कैश किए गए पाठ इनपुट की लागत 50% कम हो जाएगी, जबकि कैश किए गए ऑडियो इनपुट की लागत में 80% की छूट मिलेगी।

OpenAI ने डेवलपर डे में "Prompt Caching" नामक एक नई सुविधा की घोषणा की, जो बार-बार अनुरोधित संदर्भ संकेतों को मॉडल की मेमोरी में सहेजने में सक्षम है, जिससे प्रतिक्रिया उत्पन्न करते समय आवश्यक टोकन की संख्या कम होती है। इनपुट की कीमत को कम करके, OpenAI अधिक डेवलपर्स को अपने API का उपयोग करने के लिए आकर्षित करना चाहता है।

इसके अलावा, अन्य कंपनियों जैसे Anthropic ने भी अपनी वॉयस तकनीक को अधिक आकर्षक बनाने के लिए समान कैशिंग सुविधाएँ पेश की हैं।

मुख्य बिंदु:

🌟 पाँच नए प्राकृतिक आवाज़ें जोड़ी गईं, वॉयस अनुप्रयोग अनुभव को बढ़ाया  

💰 रियल-टाइम API कैशिंग के माध्यम से इनपुट लागत कम करता है, डेवलपर्स के लिए अधिक किफायती  

⚡ रियल-टाइम ऑडियो प्रसंस्करण नेटवर्क की स्थितियों से प्रभावित, विश्वसनीयता पर ध्यान देना आवश्यक