हाल ही में, साइबर सुरक्षा कंपनी Palo Alto Networks की Unit42 अनुसंधान टीम ने "Deceptive Delight" नामक एक नए प्रकार की जेलब्रेक विधि का खुलासा किया है।

यह विधि केवल दो से तीन इंटरैक्शन में बड़े भाषा मॉडल (LLM) को हानिकारक सामग्री उत्पन्न करने के लिए सफलतापूर्वक प्रेरित कर सकती है, जिसकी सफलता दर 65% तक है। यह खोज LLM की सुरक्षा को बनाए रखने के लिए एक चेतावनी के रूप में काम करती है।

रोबोट AI आर्टिफिशियल इंटेलिजेंस223

चित्र स्रोत टिप्पणी: चित्र AI द्वारा उत्पन्न, चित्र अधिकार सेवा प्रदाता Midjourney

अनुसंधान टीम ने परीक्षण में 8000 मामलों का विश्लेषण किया और आठ विभिन्न भाषा मॉडलों का मूल्यांकन किया। इस जेलब्रेक तकनीक के पहले चरण में, हमलावर सबसे पहले LLM से एक वर्णन उत्पन्न करने के लिए कहता है, जिसमें दो हानिरहित विषय और एक संभावित खतरनाक विषय शामिल होता है। उदाहरण के लिए, हमलावर मॉडल से कह सकता है कि वह पारिवारिक सभा, बच्चे का जन्म और मोलोटोव कॉकटेल बनाने को जोड़ने के लिए कहे। इस चरण का उद्देश्य मॉडल को अनजाने में हानिकारक सामग्री की सीमा पर लाना है।

इसके बाद, हमलावर दूसरे चरण में जाता है, LLM से वर्णन में प्रत्येक विषय पर और गहराई से चर्चा करने के लिए कहता है। अनुसंधान के अनुसार, कई बार यह चरण मॉडल को खतरनाक विषय से संबंधित हानिकारक सामग्री उत्पन्न करने के लिए मार्गदर्शित करता है। यदि हमलावर तीसरे चरण में जाता है, विशेष रूप से खतरनाक विषय को और विस्तारित करने के लिए कहता है, तो सफलता की दर औसतन 65% तक बढ़ जाती है, और उत्पन्न हानिकारक सामग्री की हानिकारकता और गुणवत्ता में क्रमशः 21% और 33% की वृद्धि होती है।

अनुसंधानकर्ताओं ने यह भी बताया कि परीक्षण के दौरान, उन्होंने जानबूझकर मॉडल के अंतर्निहित सामग्री फ़िल्टरिंग परत को हटा दिया, ताकि मॉडल की सुरक्षा क्षमता का बेहतर मूल्यांकन किया जा सके। इन फ़िल्टरों के बिना, मॉडल द्वारा हानिकारक सामग्री उत्पन्न करने की संभावना फिर भी अपेक्षाकृत कम है, औसतन केवल 5.8%। परीक्षण किए गए आठ मॉडलों में से, एक मॉडल की सफलता दर 80.6% तक पहुंच गई, जबकि न्यूनतम 48% थी।

इसलिए, Unit42 ने इस प्रकार के बहु-चरण जेलब्रेक हमलों के खिलाफ रक्षा सुझाव प्रस्तुत किए हैं। वे मानते हैं कि सुरक्षा उपाय के रूप में सामग्री फ़िल्टर बढ़ाना और अधिक सख्त सिस्टम संकेत डिज़ाइन करना, LLM को हानिकारक सामग्री उत्पन्न करने से बचाने में प्रभावी रूप से मार्गदर्शन कर सकता है। ये सिस्टम संकेत स्पष्ट रूप से मॉडल की भूमिका और सुरक्षित विषयों की सीमाओं को परिभाषित करने चाहिए, जिससे मॉडल को सुरक्षित पथ पर बनाए रखने में मदद मिल सके।

मुख्य बिंदु:

🔍 नया जेलब्रेक तरीका "Deceptive Delight" दो से तीन इंटरैक्शन में LLM को हानिकारक सामग्री उत्पन्न करने के लिए प्रेरित कर सकता है, सफलता दर 65% तक है।  

📈 अनुसंधान ने 8000 मामलों का विश्लेषण किया, विभिन्न मॉडलों की सफलता दर में स्पष्ट भिन्नता पाई, एकल मॉडल की सफलता दर 80.6% तक हो सकती है।  

🛡️ जेलब्रेक हमलों का सामना करने के लिए, सामग्री फ़िल्टर और स्पष्ट सिस्टम संकेत बढ़ाने की सिफारिश की गई है, ताकि मॉडल की सुरक्षा और रक्षा क्षमता को बढ़ाया जा सके।