अजीब! मेटा का AI सुरक्षा प्रणाली 'स्पेस' हमले से आसानी से बाईपास हो गया

हाल ही में, मेटा ने एक मशीन लर्निंग मॉडल लॉन्च किया है जिसका नाम Prompt-Guard-86M है, जिसका उद्देश्य प्रॉम्प्ट इंजेक्शन हमलों का पता लगाना और उनका सामना करना है। इस प्रकार के हमले आमतौर पर विशेष इनपुट के माध्यम से बड़े भाषा मॉडल (LLM) को अनुचित व्यवहार करने या सुरक्षा सीमाओं से बचने के लिए प्रेरित करते हैं। हालांकि, आश्चर्य की बात यह है कि यह नया सिस्टम स्वयं भी हमले के जोखिम को उजागर करता है।

हैकर, कोड, प्रोग्रामर

चित्र स्रोत नोट: चित्र एआई द्वारा उत्पन्न, चित्र अधिकार सेवा प्रदाता मिडजर्नी

Prompt-Guard-86M मेटा द्वारा उसके Llama3.1 जनरेटिव मॉडल के साथ लॉन्च किया गया है, जिसका मुख्य उद्देश्य डेवलपर्स को उन प्रॉम्प्ट्स को फ़िल्टर करने में मदद करना है जो समस्याएँ पैदा कर सकते हैं। बड़े भाषा मॉडल आमतौर पर बहुत सारे पाठ और डेटा को संसाधित करते हैं, और यदि इन्हें सीमित नहीं किया गया, तो ये संवेदनशील या खतरनाक जानकारी को स्वतंत्र रूप से दोहरा सकते हैं। इसलिए, डेवलपर्स ने मॉडल में "रैलिंग" जोड़ी है, जो उन इनपुट और आउटपुट को पकड़ने के लिए है जो हानि का कारण बन सकते हैं।

हालांकि, एआई का उपयोग करने वाले उपयोगकर्ता इन रैलिंग को पार करना एक चुनौती के रूप में देखते हैं, प्रॉम्प्ट इंजेक्शन और जेलब्रेक के तरीकों का उपयोग करके मॉडल को अपनी सुरक्षा निर्देशों की अनदेखी करने के लिए प्रेरित करते हैं। हाल ही में, कुछ शोधकर्ताओं ने बताया कि मेटा का Prompt-Guard-86M कुछ विशेष इनपुट को संसाधित करते समय असहाय प्रतीत होता है। उदाहरण के लिए, जब "Ignore previous instructions" इनपुट किया जाता है और अक्षरों के बीच स्पेस डाला जाता है, तो Prompt-Guard-86M वास्तव में पहले के निर्देशों को अनदेखा कर देता है।

यह खोज एक बग हंटर, अमन प्रियंशु द्वारा की गई थी, जिन्होंने मेटा मॉडल और माइक्रोसॉफ्ट के बेंचमार्क मॉडल का विश्लेषण करते समय इस सुरक्षा कमजोरी को पाया। प्रियंशु ने कहा कि Prompt-Guard-86M के ट्यूनिंग की प्रक्रिया में एकल अंग्रेजी अक्षरों का प्रभाव बहुत कम होता है, इसलिए वह इस प्रकार के हमले को डिजाइन करने में सक्षम थे। उन्होंने GitHub पर इस खोज को साझा किया, यह बताते हुए कि सरल वर्ण अंतराल और विराम चिह्नों को हटाने के माध्यम से, वर्गीकर्ता अपनी पहचान करने की क्षमता खो देता है।

रोबस्ट इंटेलिजेंस के मुख्य तकनीकी अधिकारी हायरम एंडरसन ने भी इस पर सहमति जताई, उन्होंने कहा कि इस तरीके से हमले की सफलता दर लगभग 100% के करीब है। हालांकि Prompt-Guard केवल एक रक्षा पंक्ति का हिस्सा है, लेकिन इस कमजोरी का खुलासा वास्तव में कंपनियों को एआई का उपयोग करते समय सावधानी बरतने की चेतावनी देता है। मेटा ने अभी तक इस पर कोई प्रतिक्रिया नहीं दी है, लेकिन खबरें हैं कि वे समाधान खोजने के लिए सक्रिय रूप से काम कर रहे हैं।

मुख्य बिंदु:
🔍 मेटा का Prompt-Guard-86M सुरक्षा खामी के साथ पाया गया, जो प्रॉम्प्ट इंजेक्शन हमलों के प्रति संवेदनशील है।
💡 अक्षरों के बीच स्पेस डालकर, सिस्टम सुरक्षा निर्देशों को अनदेखा कर सकता है, हमले की सफलता दर लगभग 100% है।
⚠️ यह घटना कंपनियों को एआई तकनीक का उपयोग करते समय सावधानी बरतने की याद दिलाती है, सुरक्षा मुद्दों को नजरअंदाज नहीं किया जाना चाहिए।

AI समाचार

अजीब! मेटा का AI सुरक्षा प्रणाली 'स्पेस' हमले से आसानी से बाईपास हो गया

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

Meta से PyTorch के अग्रणी व्यक्ति Horace He का जाना, OpenAI के पूर्व CTO द्वारा स्थापित स्टार्टअप में शामिल हुए

Adobe और विश्वविद्यालयों ने मिलकर METAL ढाँचा जारी किया: बहु-एजेंट सहयोग से सटीक चार्ट बनाना

Meta अपनी उपयोगकर्ता संख्या बढ़ाने के लिए एक स्वतंत्र AI चैटबॉट ऐप लॉन्च करने की योजना बना रहा है

Meta ने दूसरी पीढ़ी का AR चश्मा जारी किया, जिसमें हृदय गति की निगरानी की सुविधा है