वेबमास्टर होम (ChinaZ.com) 12 जून को समाचार: बीजिंग航空 और नानयांग टेक्नोलॉजिकल यूनिवर्सिटी की संयुक्त शोध टीम ने GPT-4o मॉडल पर गहन सुरक्षा परीक्षण किया। हजारों API प्रश्नों के माध्यम से, शोधकर्ताओं ने GPT-4o के पाठ, छवि और ऑडियो तीन मोडलों का सुरक्षा मूल्यांकन किया। अध्ययन से पता चला है कि, हालांकि GPT-4o पाठ जेलब्रेक हमलों के खिलाफ सुरक्षा में सुधार हुआ है, लेकिन नए पेश किए गए ऑडियो मोड ने नए हमले के क्षेत्र को बढ़ा दिया है, और समग्र बहु-मोडल सुरक्षा पिछले पीढ़ी के मॉडल GPT-4V से कम है।

मुख्य निष्कर्ष:

  • पाठ मोड की सुरक्षा में सुधार, लेकिन स्थानांतरण जोखिम: GPT-4o पाठ जेलब्रेक हमलों के खिलाफ अधिक प्रतिरोधी है, लेकिन हमलावर अभी भी बहु-मोडल रूपों के माध्यम से हमले कर सकते हैं।

  • ऑडियो मोड नई सुरक्षा चुनौतियाँ लाता है: नए पेश किए गए ऑडियो मोड जेलब्रेक हमलों के लिए नए रास्ते प्रदान कर सकते हैं।

  • बहु-मोडल सुरक्षा अपर्याप्त: GPT-4o बहु-मोडल स्तर पर सुरक्षा प्रदर्शन में GPT-4V से कम है, यह दर्शाता है कि नए मॉडल के विभिन्न मोडों को एकीकृत करने में सुरक्षा में कमी हो सकती है।

प्रयोगात्मक विधि:

4000+ प्रारंभिक पाठ प्रश्नों, 8000+ प्रतिक्रिया निर्णयों और 16000+ API प्रश्नों का उपयोग किया गया।

AdvBench, RedTeam-2K, SafeBench और MM-SafetyBench सहित एकल-मोडल और बहु-मोडल आधारित ओपन-सोर्स जेलब्रेक डेटा सेट का मूल्यांकन किया गया।

7 प्रकार के जेलब्रेक तरीकों का परीक्षण किया गया, जिनमें टेम्पलेट-आधारित तरीके, GCG, AutoDAN, PAP और BAP शामिल हैं।

image.png

मूल्यांकन संकेतक:

हमले की सफलता दर (ASR) को मुख्य मूल्यांकन संकेतक के रूप में लिया गया, जो मॉडल को जेलब्रेक करने की कठिनाई को दर्शाता है।

प्रयोगात्मक परिणाम:

शुद्ध पाठ मोड में, GPT-4o बिना हमले के सुरक्षा स्तर में GPT-4V से कम है, लेकिन हमले की स्थिति में अधिक सुरक्षा प्रदर्शित करता है।

ऑडियो मोड की सुरक्षा उच्च है, सीधे पाठ को ऑडियो में बदलना GPT-4o को जेलब्रेक करना मुश्किल बनाता है।

बहु-मोडल सुरक्षा परीक्षण दर्शाते हैं कि GPT-4o कुछ परिदृश्यों में GPT-4V की तुलना में अधिक आसानी से हमले का शिकार हो सकता है।

निष्कर्ष और सिफारिशें:

शोध टीम ने जोर देकर कहा कि, हालांकि GPT-4o में बहु-मोडल क्षमताओं में सुधार हुआ है, लेकिन इसकी सुरक्षा समस्याओं को नजरअंदाज नहीं किया जा सकता। उन्होंने समुदाय से बहु-मोडल बड़े मॉडल की सुरक्षा जोखिमों के प्रति जागरूकता बढ़ाने और समन्वय रणनीतियों और शमन तकनीकों को प्राथमिकता देने की सिफारिश की। इसके अलावा, बहु-मोडल जेलब्रेक डेटा सेट की कमी के कारण, शोधकर्ताओं ने अधिक व्यापक बहु-मोडल डेटा सेट स्थापित करने का आह्वान किया, ताकि मॉडल की सुरक्षा का अधिक सटीक मूल्यांकन किया जा सके।

पेपर का पता: https://arxiv.org/abs/2406.06302

प्रोजेक्ट का पता: https://github.com/NY1024/Jailbreak_GPT4o