एनथ्रोपिक ने "संविधान वर्गीकर्ता" लॉन्च किया: 95% मॉडल जेलब्रेक प्रयासों को सफलतापूर्वक रोकता है

कृत्रिम बुद्धिमत्ता कंपनी एंथ्रोपिक ने हाल ही में "शारीरिक वर्गीकरणकर्ता" नामक एक नई सुरक्षा विधि विकसित करने की घोषणा की है, जिसका उद्देश्य भाषा मॉडल को दुर्भावनापूर्ण हेरफेर से बचाना है। यह तकनीक "सामान्य जेलब्रेकिंग" को लक्षित करती है - एक ऐसा तरीका जो सभी सुरक्षा उपायों को प्रणालीगत रूप से बायपास करने का प्रयास करता है, ताकि एआई मॉडल हानिकारक सामग्री उत्पन्न न कर सके।

इस तकनीक की प्रभावशीलता को सत्यापित करने के लिए, एंथ्रोपिक ने एक बड़े पैमाने पर परीक्षण किया। कंपनी ने 183 प्रतिभागियों की भर्ती की, जिन्होंने दो महीनों के भीतर इसकी रक्षा प्रणाली को तोड़ने का प्रयास किया। प्रतिभागियों को विशेष प्रश्नों के माध्यम से एआई मॉडल क्लॉड3.5 को दस प्रतिबंधित प्रश्नों का उत्तर देने के लिए प्रेरित करने के लिए कहा गया। 15,000 डॉलर तक के पुरस्कार और लगभग 3,000 घंटे के परीक्षण समय के बावजूद, कोई भी प्रतिभागी एंथ्रोपिक की सुरक्षा उपायों को पूरी तरह से बायपास करने में सफल नहीं हो सका।

Claude2, एंथ्रोपिक, कृत्रिम बुद्धिमत्ता, चैटबॉट क्लॉड

चुनौतियों से प्रगति

एंथ्रोपिक के प्रारंभिक संस्करण "शारीरिक वर्गीकरणकर्ता" में दो प्रमुख समस्याएँ थीं: पहली, यह अधिकतर निर्दोष अनुरोधों को खतरनाक अनुरोधों के रूप में गलत पहचानती थी, और दूसरी, इसे बड़ी मात्रा में गणनात्मक संसाधनों की आवश्यकता थी। सुधार के बाद, नए संस्करण वर्गीकरणकर्ता ने गलत पहचान दर को काफी कम कर दिया है और गणनात्मक दक्षता को अनुकूलित किया है। हालाँकि, स्वचालित परीक्षण से पता चला है कि सुधारित प्रणाली ने 95% से अधिक जेलब्रेक प्रयासों को सफलतापूर्वक रोक दिया, फिर भी इसे चलाने के लिए अतिरिक्त 23.7% गणनात्मक शक्ति की आवश्यकता है। इसके विपरीत, असुरक्षित क्लॉड मॉडल ने 86% जेलब्रेक प्रयासों को पास होने की अनुमति दी।

संश्लेषित डेटा पर आधारित प्रशिक्षण

"शारीरिक वर्गीकरणकर्ता" का मुख्य उद्देश्य पूर्व-परिभाषित नियमों (जिसे "संविधान" कहा जाता है) का उपयोग करके अनुमत और निषिद्ध सामग्री के बीच अंतर करना है। प्रणाली विभिन्न भाषाओं और शैलियों में संश्लेषित प्रशिक्षण उदाहरण उत्पन्न करके वर्गीकरणकर्ता को संदिग्ध इनपुट की पहचान करने के लिए प्रशिक्षित करती है। यह विधि न केवल प्रणाली की सटीकता में सुधार करती है, बल्कि विविध प्रकार के हमलों का सामना करने की उसकी क्षमता को भी बढ़ाती है।

हालाँकि महत्वपूर्ण प्रगति हुई है, एंथ्रोपिक के शोधकर्ताओं ने स्वीकार किया है कि यह प्रणाली पूर्ण नहीं है। यह सभी प्रकार के सामान्य जेलब्रेक हमलों का सामना नहीं कर सकती, और भविष्य में नए हमले के तरीके उत्पन्न हो सकते हैं। इसलिए, एंथ्रोपिक ने सुझाव दिया है कि "शारीरिक वर्गीकरणकर्ता" को अन्य सुरक्षा उपायों के साथ मिलाकर उपयोग किया जाए, ताकि अधिक व्यापक सुरक्षा प्रदान की जा सके।

सार्वजनिक परीक्षण और भविष्य की संभावनाएँ

प्रणाली की मजबूती का और परीक्षण करने के लिए, एंथ्रोपिक ने 3 से 10 फरवरी 2025 के बीच एक सार्वजनिक डेमो संस्करण जारी करने की योजना बनाई है, जिसमें सुरक्षा विशेषज्ञों को क्रैक करने के लिए आमंत्रित किया जाएगा। परीक्षण परिणामों को बाद में अपडेट में साझा किया जाएगा। यह पहल न केवल एंथ्रोपिक की तकनीकी पारदर्शिता के प्रति प्रतिबद्धता को दर्शाती है, बल्कि एआई सुरक्षा क्षेत्र में अनुसंधान के लिए मूल्यवान डेटा भी प्रदान करती है।

एंथ्रोपिक का "शारीरिक वर्गीकरणकर्ता" एआई मॉडल की सुरक्षा में महत्वपूर्ण प्रगति का प्रतीक है। एआई तकनीक के तेजी से विकास के साथ, यह सुनिश्चित करना कि मॉडल का दुरुपयोग न हो, उद्योग का एक प्रमुख फोकस बन गया है। एंथ्रोपिक की नवाचार इस चुनौती के लिए नए समाधान प्रदान करती है, साथ ही भविष्य के एआई सुरक्षा अनुसंधान के लिए दिशा भी निर्धारित करती है।

AI समाचार

एनथ्रोपिक ने "संविधान वर्गीकर्ता" लॉन्च किया: 95% मॉडल जेलब्रेक प्रयासों को सफलतापूर्वक रोकता है

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

OpenAI का नवीनतम बेंचमार्क परीक्षण: AI प्रोग्रामिंग क्षमताएँ मानव से एक चौथाई, सीमाओं को उजागर करना

Anthropic सुरक्षा सुरक्षा चुनौतियों का सामना कर रहा है, AI मॉडल सामान्य जेलब्रेक परीक्षणों ने突破 बिंदुओं को उजागर किया है

AI प्रोग्रामिंग क्षमता का विकास! लगातार PUA बड़े मॉडल के माध्यम से कोड गुणवत्ता को बढ़ाया जा सकता है

आपको बिलकुल नहीं पता होगा! इस सरल निर्देश को दोहराकर AI को कोड 100 गुना तेजी से जनरेट करने दें