OpenAI ने एक नई AI सुरक्षा विधि की घोषणा की है, जिसका उद्देश्य AI सिस्टम द्वारा सुरक्षा नियमों को संसाधित करने के तरीके को बदलकर इसकी सुरक्षा को बढ़ाना है। यह नया o श्रृंखला मॉडल अब केवल उदाहरणों के माध्यम से अच्छे और बुरे व्यवहार को सीखने पर निर्भर नहीं है, बल्कि यह विशेष सुरक्षा दिशानिर्देशों को समझने और सक्रिय रूप से तर्क करने में सक्षम है।
OpenAI के शोध में एक उदाहरण दिया गया है, जब उपयोगकर्ता ने एन्क्रिप्टेड टेक्स्ट के माध्यम से अवैध गतिविधियों के निर्देश प्राप्त करने का प्रयास किया, तो मॉडल ने जानकारी को सफलतापूर्वक डिकोड किया, लेकिन अनुरोध को अस्वीकार कर दिया और विशेष रूप से उल्लंघन करने वाले सुरक्षा नियमों का हवाला दिया। यह क्रमिक तर्क प्रक्रिया दिखाती है कि मॉडल कैसे प्रभावी ढंग से संबंधित सुरक्षा दिशानिर्देशों का पालन करता है।
इस o1 मॉडल के प्रशिक्षण प्रक्रिया को तीन चरणों में विभाजित किया गया है। पहले, मॉडल सीखता है कि कैसे सहायता प्रदान करें। इसके बाद, पर्यवेक्षित शिक्षण के माध्यम से, मॉडल विशेष सुरक्षा दिशानिर्देशों का अध्ययन करता है। अंत में, मॉडल इन नियमों को लागू करने के लिए सुदृढीकरण शिक्षण का उपयोग करता है, यह चरण मॉडल को वास्तव में इन सुरक्षा दिशानिर्देशों को समझने और आत्मसात करने में मदद करता है।
OpenAI के परीक्षण में, नए o1 मॉडल ने सुरक्षा के मामले में अन्य मुख्यधारा के सिस्टम जैसे GPT-4o, Claude3.5Sonnet और Gemini1.5Pro की तुलना में उल्लेखनीय रूप से बेहतर प्रदर्शन किया। परीक्षण सामग्री में यह शामिल था कि मॉडल कैसे हानिकारक अनुरोधों को अस्वीकार करता है और उचित अनुरोधों को अनुमति देता है, परिणाम दिखाते हैं कि o1 मॉडल ने सटीकता और जेलब्रेक प्रयासों का प्रतिरोध करने में सर्वोच्च अंक प्राप्त किए।
OpenAI के सह-संस्थापक वोइचेक ज़ालेंबा ने सोशल मीडिया पर कहा कि वह इस "गंभीर समन्वय" कार्य पर बहुत गर्व महसूस करते हैं, और मानते हैं कि यह तर्क मॉडल एक नई तरीके से समन्वय कर सकता है, विशेष रूप से आर्टिफिशियल जनरल इंटेलिजेंस (AGI) के विकास के समय, यह सुनिश्चित करना कि सिस्टम मानव मूल्यों के अनुरूप है, एक महत्वपूर्ण चुनौती है।
हालांकि OpenAI ने प्रगति का दावा किया है, फिर भी "लिबरेटर प्रिन्नी" नामक हैकर ने दिखाया कि नए o1 और o1-Pro मॉडल को भी सुरक्षा दिशानिर्देशों को तोड़ने के लिए हेरफेर किया जा सकता है। प्रिन्नी ने सफलतापूर्वक मॉडल को वयस्क सामग्री उत्पन्न करने और यहां तक कि मोलोटोव कॉकटेल बनाने के निर्देश साझा करने के लिए प्रेरित किया, हालाँकि सिस्टम ने शुरू में इन अनुरोधों को अस्वीकार कर दिया। ये घटनाएँ इन जटिल AI सिस्टम को नियंत्रित करने की कठिनाई को उजागर करती हैं, क्योंकि वे सख्त नियमों के बजाय संभाव्यता के आधार पर कार्य करते हैं।
ज़ालेंबा ने कहा कि OpenAI में लगभग 100 कर्मचारी AI सुरक्षा और मानव मूल्यों के अनुरूपता पर काम कर रहे हैं। उन्होंने प्रतियोगियों की सुरक्षा प्रबंधन विधियों पर सवाल उठाया, विशेष रूप से एलोन मस्क की xAI कंपनी जो सुरक्षा उपायों के बजाय बाजार वृद्धि को प्राथमिकता देती है, जबकि एंथ्रोपिक ने हाल ही में एक ऐसा AI एजेंट लॉन्च किया है जिसमें उचित सुरक्षा नहीं है, ज़ालेंबा का मानना है कि इससे OpenAI को "विशाल नकारात्मक प्रतिक्रिया" मिल सकती है।
आधिकारिक ब्लॉग: https://openai.com/index/deliberative-alignment/
मुख्य बिंदु:
🌟 OpenAI का नया o श्रृंखला मॉडल सक्रिय रूप से सुरक्षा नियमों का तर्क कर सकता है, सिस्टम की सुरक्षा को बढ़ाता है।
🛡️ o1 मॉडल हानिकारक अनुरोधों को अस्वीकार करने और सटीकता में अन्य मुख्यधारा के AI सिस्टम की तुलना में बेहतर प्रदर्शन करता है।
🚨 सुधारों के बावजूद, नए मॉडल को भी हेरफेर किया जा सकता है, सुरक्षा चुनौतियाँ अभी भी गंभीर हैं।