2021 से, माइक्रोसॉफ्ट की एआई सुरक्षा टीम ने 100 से अधिक जनरेटिव एआई उत्पादों का परीक्षण किया है, ताकि कमजोरियों और नैतिक मुद्दों की पहचान की जा सके। उनके निष्कर्षों ने एआई सुरक्षा के बारे में कुछ सामान्य धारणाओं को चुनौती दी है और मानव विशेषज्ञता के निरंतर महत्व पर जोर दिया है।
यह साबित हुआ है कि सबसे प्रभावी हमले हमेशा सबसे जटिल नहीं होते। माइक्रोसॉफ्ट की रिपोर्ट में उद्धृत एक अध्ययन में कहा गया है: "सच्चे हैकर ग्रेडिएंट की गणना नहीं करते, बल्कि त्वरित इंजीनियरिंग का उपयोग करते हैं।" इस अध्ययन ने एआई सुरक्षा अनुसंधान की तुलना वास्तविक दुनिया के अभ्यास से की। एक परीक्षण में, टीम ने केवल हानिकारक निर्देशों को छवियों के टेक्स्ट में छिपाकर छवि जनरेटर की सुरक्षा कार्यक्षमता को सफलतापूर्वक बाईपास किया - बिना जटिल गणितीय संचालन के।
मानवता का महत्व
हालांकि माइक्रोसॉफ्ट ने PyRIT नामक एक ओपन-सोर्स उपकरण विकसित किया है जो स्वचालित रूप से सुरक्षा परीक्षण कर सकता है, लेकिन टीम ने जोर दिया कि मानव निर्णय क्षमता को प्रतिस्थापित नहीं किया जा सकता। जब उन्होंने परीक्षण किया कि चैटबॉट संवेदनशील स्थितियों (जैसे भावनात्मक संकट में लोगों से बात करना) को कैसे संभालते हैं, तो यह विशेष रूप से स्पष्ट हो गया। इन परिदृश्यों का मूल्यांकन करने के लिए मनोविज्ञान में विशेषज्ञता और संभावित मानसिक स्वास्थ्य प्रभावों की गहरी समझ दोनों की आवश्यकता होती है।
एआई पूर्वाग्रहों की जांच करते समय, टीम ने मानव अंतर्दृष्टि पर भी निर्भर किया। एक उदाहरण में, उन्होंने छवि जनरेटर में लिंग पूर्वाग्रह की जांच करने के लिए विभिन्न व्यवसायों की तस्वीरें (लिंग निर्दिष्ट किए बिना) बनाई।
नई सुरक्षा चुनौतियाँ उभर रही हैं
एआई का दैनिक अनुप्रयोगों में एकीकरण नए कमजोरियों को लेकर आया है। एक परीक्षण में, टीम ने भाषा मॉडल को सफलतापूर्वक हेरफेर किया और विश्वसनीय धोखाधड़ी परिदृश्यों का निर्माण किया। जब इसे टेक्स्ट-टू-स्पीच तकनीक के साथ जोड़ा गया, तो इसने एक ऐसा सिस्टम बनाया जो खतरनाक रूप से वास्तविक तरीके से लोगों के साथ इंटरैक्ट कर सकता था।
जोखिम केवल एआई के विशिष्ट मुद्दों तक सीमित नहीं हैं। टीम ने एक एआई वीडियो प्रोसेसिंग टूल में एक पारंपरिक सुरक्षा कमजोरियों (SSRF) का पता लगाया, यह दर्शाता है कि ये सिस्टम नए और पुराने सुरक्षा चुनौतियों का सामना कर रहे हैं।
सतत सुरक्षा की आवश्यकता
यह अध्ययन विशेष रूप से "जिम्मेदार एआई" जोखिम पर ध्यान केंद्रित करता है, अर्थात् एआई सिस्टम द्वारा हानिकारक या नैतिक मुद्दों वाले सामग्री का उत्पादन करने की संभावनाएँ। ये मुद्दे विशेष रूप से हल करना कठिन हैं, क्योंकि वे अक्सर संदर्भ और व्यक्तिगत व्याख्या पर गंभीर रूप से निर्भर करते हैं।
माइक्रोसॉफ्ट टीम ने पाया कि सामान्य उपयोगकर्ताओं का अनजाने में समस्याग्रस्त सामग्री का संपर्क करना जानबूझकर हमले की तुलना में अधिक चिंताजनक है, क्योंकि यह दर्शाता है कि सुरक्षा उपाय सामान्य उपयोग के दौरान अपेक्षित रूप से कार्य नहीं कर रहे हैं।
अनुसंधान के निष्कर्ष स्पष्ट रूप से दर्शाते हैं कि एआई सुरक्षा एक बार का समाधान नहीं है। माइक्रोसॉफ्ट ने कमजोरियों की पहचान और सुधार के लिए निरंतर प्रयास करने और फिर अधिक परीक्षण करने का सुझाव दिया है। उन्होंने सुझाव दिया कि इसके लिए नियमों और वित्तीय प्रोत्साहनों का समर्थन होना आवश्यक है, जिससे सफल हमले अधिक महंगे हो जाएं।
अनुसंधान टीम ने कहा कि कई प्रमुख प्रश्नों का समाधान अभी भी आवश्यक है: हम संभावित खतरनाक एआई क्षमताओं जैसे कि मनाने और धोखा देने की पहचान और नियंत्रण कैसे करें? हम विभिन्न भाषाओं और संस्कृतियों के अनुसार सुरक्षा परीक्षण को कैसे समायोजित करें? कंपनियां अपने दृष्टिकोण और परिणामों को मानकीकृत तरीके से कैसे साझा करें?