छह दिनों के भीतर, प्रतिभागियों ने Anthropic के एआई मॉडल Claude3.5 की सभी सुरक्षा उपायों को सफलतापूर्वक बाईपास किया, यह उपलब्धि एआई सुरक्षा क्षेत्र में नए चर्चाओं का कारण बनी। पूर्व OpenAI संरेखण टीम के सदस्य और वर्तमान में Anthropic में कार्यरत Jan Leike ने X प्लेटफॉर्म पर घोषणा की कि एक प्रतिभागी ने सभी आठ सुरक्षा स्तरों को सफलतापूर्वक भेद दिया। इस सामूहिक प्रयास में लगभग 3,700 घंटे का परीक्षण और प्रतिभागियों से 300,000 संदेश शामिल थे।
हालांकि चुनौती देने वाले ने सफलतापूर्वक सुरक्षा को तोड़ दिया, Leike ने जोर देकर कहा कि वर्तमान में कोई भी एक सामान्य "जेल तोड़ने की विधि" प्रस्तुत नहीं कर सका है जो सभी सुरक्षा चुनौतियों को एक बार में हल कर सके। इसका मतलब है कि हालांकि एक突破 हुआ है, फिर भी सभी सुरक्षा उपायों को बाईपास करने के लिए कोई सार्वभौमिक तरीका नहीं मिला है।
शारीरिक वर्गीकरणकर्ता की चुनौतियाँ और सुधार
जैसे-जैसे एआई तकनीकें मजबूत होती जा रही हैं, उन्हें नियंत्रित करने और दुरुपयोग से बचाने का तरीका, विशेष रूप से हानिकारक आउटपुट से संबंधित मामलों में, एक महत्वपूर्ण मुद्दा बनता जा रहा है। Anthropic ने इस उद्देश्य के लिए एक नई सुरक्षा विधि विकसित की है - शारीरिक वर्गीकरणकर्ता, जो सामान्य जेल तोड़ने की गतिविधियों को रोकने के लिए विशेष रूप से डिज़ाइन की गई है। यह विधि पूर्वनिर्धारित नियमों के माध्यम से यह निर्धारित करती है कि क्या इनपुट सामग्री मॉडल को नियंत्रित करने की संभावना रखती है, और इस प्रकार खतरनाक प्रतिक्रियाओं को रोकती है।
इस प्रणाली की प्रभावशीलता का परीक्षण करने के लिए, Anthropic ने दो महीने के भीतर 183 प्रतिभागियों को भर्ती किया, जिन्होंने Claude3.5 मॉडल की सुरक्षा को तोड़ने का प्रयास किया। प्रतिभागियों को सुरक्षा तंत्र को बाईपास करने के लिए कहा गया, ताकि Claude दस "वर्जित प्रश्नों" का उत्तर दे सके। हालांकि 15,000 डॉलर का पुरस्कार और लगभग 3,000 घंटे का परीक्षण किया गया, लेकिन कोई भी सभी सुरक्षा उपायों को बाईपास नहीं कर सका।
शारीरिक वर्गीकरणकर्ता के प्रारंभिक संस्करणों में कुछ समस्याएँ थीं, जिनमें हानिकारक अनुरोधों को खतरनाक अनुरोध के रूप में गलत तरीके से चिह्नित करना और बड़ी मात्रा में गणना की आवश्यकता शामिल थी। लेकिन आगे के सुधारों के साथ, इन समस्याओं को प्रभावी ढंग से हल किया गया। परीक्षण डेटा दर्शाते हैं कि बिना सुरक्षा के Claude मॉडल पर 86% नियंत्रण प्रयास सफल रहे, जबकि सुरक्षित संस्करण ने 95% से अधिक नियंत्रण प्रयासों को रोक दिया, हालाँकि इस प्रणाली को अभी भी उच्च गणना क्षमता की आवश्यकता है।
संश्लेषणात्मक प्रशिक्षण डेटा और भविष्य की सुरक्षा चुनौतियाँ
यह सुरक्षा प्रणाली संश्लेषणात्मक प्रशिक्षण डेटा पर आधारित है, जो पूर्वनिर्धारित नियमों का उपयोग करके मॉडल का "संविधान" बनाती है, ये नियम निर्धारित करते हैं कि कौन से इनपुट अनुमेय हैं और कौन से निषिद्ध हैं। इन संश्लेषणात्मक उदाहरणों के माध्यम से प्रशिक्षित वर्गीकरणकर्ता संदिग्ध इनपुट की प्रभावी पहचान कर सकते हैं। हालांकि, शोधकर्ता स्वीकार करते हैं कि यह प्रणाली सभी प्रकार के सामान्य जेल तोड़ने के हमलों का सामना करने में पूर्ण नहीं है, इसलिए इसे अन्य सुरक्षा उपायों के साथ संयोजन में उपयोग करने की सिफारिश की जाती है।
इस प्रणाली की सत्यापन को और मजबूत करने के लिए, Anthropic ने 3 से 10 फरवरी 2025 के बीच एक सार्वजनिक डेमो संस्करण जारी किया, जिसमें सुरक्षा विशेषज्ञों को चुनौती देने के लिए आमंत्रित किया गया, परिणामों को आगे की अपडेट के माध्यम से साझा किया जाएगा।
एआई सुरक्षा के इस संघर्ष ने एआई मॉडल सुरक्षा के सामने आने वाली विशाल चुनौतियों और जटिलताओं को प्रदर्शित किया। जैसे-जैसे तकनीक में प्रगति होती है, यह सुनिश्चित करना कि सुरक्षा के साथ-साथ मॉडल की कार्यक्षमता को बढ़ाया जाए, एआई उद्योग के लिए एक महत्वपूर्ण मुद्दा बना हुआ है।