साइंस फिक्शन फिल्म "Her" का दृश्य अब वास्तविकता में बदलता हुआ प्रतीत हो रहा है। GPT-4o की वॉयस फीचर आखिरकार ग्रे टेस्टिंग के लिए शुरू हो गई है, और कुछ ChatGPT Plus उपयोगकर्ताओं ने इस रोमांचक नए फीचर का पहले ही अनुभव लिया है। OpenAI का यह नवाचार न केवल AI को मजाक करने, बिल्ली की आवाज़ें सीखने में सक्षम बनाता है, बल्कि यह "दूसरी भाषा के कोच" के रूप में भी मदद कर सकता है, जिससे मौखिक अभ्यास किया जा सकता है।
GPT-4o का वॉयस मोड एक अधिक स्वाभाविक और वास्तविक समय की बातचीत का अनुभव लाता है। उपयोगकर्ता AI को बिना किसी संकोच के बाधित कर सकते हैं, और यह उपयोगकर्ता की भावनाओं को महसूस कर सकता है और प्रतिक्रिया दे सकता है। उम्मीद है कि इस साल के पतझड़ में, सभी ChatGPT Plus उपयोगकर्ता इस फीचर का उपयोग कर सकेंगे। और भी रोमांचक बात यह है कि वीडियो और स्क्रीन शेयरिंग फीचर्स भी जल्द ही लॉन्च होने वाले हैं, जिससे उपयोगकर्ता ChatGPT के साथ "सामने-सामने" संवाद कर सकेंगे।
GPT-4o की आउटपुट क्षमता में भी काफी सुधार हुआ है। नए मॉडल की आउटपुट टोकन संख्या 4000 से बढ़कर 64000 हो गई है, जिसका मतलब है कि एक बार में चार पूर्ण लंबी फिल्म स्क्रिप्ट के बराबर सामग्री प्राप्त की जा सकती है। OpenAI ने आधिकारिक वेबसाइट पर इस टेस्ट वर्जन नए मॉडल gpt-4o-64k-output-alpha को चुपचाप लॉन्च किया है।
सुरक्षा और गुणवत्ता सुनिश्चित करने के लिए, OpenAI ने पिछले कुछ महीनों में GPT-4o की वॉयस फीचर का कड़ा परीक्षण किया है। उन्होंने 100 से अधिक रेड टीम सदस्यों के साथ 45 भाषाओं का परीक्षण किया और मॉडल को केवल 4 प्रीसेट आवाजों में बात करने के लिए प्रशिक्षित किया, ताकि उपयोगकर्ता की गोपनीयता की रक्षा की जा सके। इसके अलावा, सामग्री फ़िल्टरिंग भी अनिवार्य है, और टीम ने हिंसा और कॉपीराइट से संबंधित सामग्री के उत्पादन को रोकने के लिए कदम उठाए हैं।
नेटिज़न्स ने GPT-4o की वॉयस मोड के वास्तविक परीक्षण परिणामों पर गहरा प्रभाव डाला है। कुछ लोगों ने पाया कि यह सवालों का तेजी से उत्तर दे सकता है, लगभग बिना किसी देरी के; कुछ ने इसका उपयोग विभिन्न आवाज़ों और लहजों की नकल करने के लिए किया; और कुछ ने इसे फुटबॉल मैच के कमेंटेटर के रूप में उपयोग किया, यहाँ तक कि इसे चीनी में जीवंत कहानियाँ सुनाने के लिए कहा। ये मामले GPT-4o की आवाज़ पहचान और उत्पादन की ताकत को दर्शाते हैं।
यह उल्लेखनीय है कि हालांकि OpenAI का कहना है कि वीडियो और स्क्रीन शेयरिंग फीचर बाद में लॉन्च होंगे, कुछ नेटिज़न्स ने पहले ही इन फीचर्स का अनुभव किया है। उदाहरण के लिए, एक नेटिज़न ने ChatGPT को अपने नए पालतू बिल्ली के लिए तैयार किए गए छोटे घर को दिखाया, और ChatGPT ने देखा कि "यह निश्चित रूप से बहुत आरामदायक होगा," और बिल्ली की स्थिति के बारे में चिंतित होकर पूछा।
इसके अलावा, GPT-4o की लंबी आउटपुट फीचर भी चुपचाप लॉन्च हो गई है। OpenAI ने आधिकारिक रूप से परीक्षणकर्ताओं को GPT-4o Alpha संस्करण प्रदान करने की घोषणा की है, जिसमें प्रति अनुरोध अधिकतम 64K टोकन का आउटपुट समर्थन है, जो 200 पन्नों की उपन्यास के बराबर है। इस फीचर का लॉन्च उपयोगकर्ताओं की लंबी आउटपुट सामग्री की मांग पर आधारित है।
हालांकि, लंबी आउटपुट का मतलब अधिक गणना और कीमत भी है। GPT-4o Long Output की कीमत प्रति मिलियन इनपुट टोकन 6 डॉलर है, और प्रति मिलियन आउटपुट टोकन 18 डॉलर है, जो पिछले मॉडल की तुलना में बढ़ी है। फिर भी, कुछ शोधकर्ताओं का मानना है कि लंबी आउटपुट मुख्य रूप से डेटा रूपांतरण जैसे उपयोग के मामलों के लिए है, और कोड लिखने, लेखन में सुधार करने जैसे दृश्यों के लिए बहुत मददगार है।
कुल मिलाकर, GPT-4o की वॉयस फीचर और लंबी आउटपुट क्षमता निश्चित रूप से उपयोगकर्ताओं को एक अधिक समृद्ध और सुविधाजनक इंटरैक्शन अनुभव प्रदान करेगी। हमें विश्वास है कि तकनीक के निरंतर विकास के साथ, AI अधिक क्षेत्रों में अपनी अनूठी मूल्य को प्रदर्शित करेगा।