AI युग में, बड़े भाषा मॉडल (LLM) जैसे कि मार्शल आर्ट की गुप्त किताबें हैं, जिनका प्रशिक्षण प्रक्रिया में बहुत अधिक कंप्यूटिंग शक्ति और डेटा की आवश्यकता होती है, जैसे कि वर्षों तक ध्यान करने वाले मार्शल आर्ट के मास्टर। ओपन-सोर्स मॉडल का विमोचन, जैसे कि मास्टर द्वारा गुप्त ज्ञान को सार्वजनिक करना, कुछ लाइसेंस (जैसे Apache2.0 और LLaMA2 सामुदायिक लाइसेंस) के साथ आता है ताकि उनके बौद्धिक संपदा (IP) की सुरक्षा की जा सके।
हालांकि, यह दुनिया खतरनाक है, हमेशा "पैकेजिंग" घटनाएं होती रहती हैं। कुछ डेवलपर्स का दावा है कि उन्होंने एक नया LLM प्रशिक्षित किया है, जबकि वास्तव में वे अन्य मूल मॉडल (जैसे Llama-2 और MiniCPM-V) पर पैकेजिंग या फाइन-ट्यूनिंग कर रहे हैं। यह ऐसा है जैसे कि किसी ने दूसरों की कला चुराई हो, लेकिन बाहर यह दावा किया हो कि यह उनका अपना है। इस स्थिति से बचने के लिए, मॉडल के मालिकों और तीसरे पक्ष को "पैकेजिंग" मॉडल की पहचान करने के लिए एक तरीके की आवश्यकता है।
वर्तमान में, मॉडल फिंगरप्रिंट पहचान विधियों में मुख्य रूप से दो प्रकार हैं:
इंजेक्टिव फिंगरप्रिंट: यह गुप्त किताब में चुपके से मार्किंग करने जैसा है, जैसे कि वॉटरमार्किंग विधि। इस विधि में मॉडल प्रशिक्षण या फाइन-ट्यूनिंग प्रक्रिया में कुछ "ट्रिगर्स" जोड़ने होते हैं, ताकि मॉडल विशिष्ट परिस्थितियों में विशिष्ट सामग्री उत्पन्न कर सके, जिससे मॉडल के स्रोत की पहचान की जा सके। हालांकि, यह विधि प्रशिक्षण लागत को बढ़ाती है, मॉडल के प्रदर्शन को प्रभावित करती है, और इसे हटा भी दिया जा सकता है। और, पहले से जारी किए गए मॉडल के लिए, यह विधि लागू नहीं हो सकती।
अंदरूनी फिंगरप्रिंट: यह गुप्त किताब की सामग्री और शैली से उसके स्रोत की पहचान करने जैसा है। यह विधि मॉडल के अपने गुणों का उपयोग करके पहचान करती है, जिसमें मॉडल का वजन और विशेषता प्रतिनिधित्व शामिल है। इसमें, वजन आधारित फिंगरप्रिंट विधि मॉडल के वजन की समानता की गणना करके पहचान करती है। हालांकि, यह विधि वजन में बदलावों से प्रभावित हो सकती है, जैसे कि वजन की व्यवस्था, प्रूनिंग और फाइन-ट्यूनिंग। और, अर्थ विश्लेषण आधारित विधि मॉडल द्वारा उत्पन्न टेक्स्ट का सांख्यिकीय विश्लेषण करके पहचान करती है। लेकिन, इन दोनों विधियों में मजबूती की कमी की समस्या है।
तो, क्या कोई ऐसी विधि है जो "पैकेजिंग" मॉडल को प्रभावी ढंग से पहचान सके, मॉडल के प्रदर्शन को प्रभावित न करे, और विभिन्न "शैली" संशोधनों का प्रतिरोध कर सके?
शंघाई आर्टिफिशियल इंटेलिजेंस प्रयोगशाला और अन्य संस्थानों के शोधकर्ताओं ने एक नई मॉडल फिंगरप्रिंट पहचान विधि - REEF प्रस्तुत की है।
REEF का कार्यप्रणाली है:
REEF एक विशेषता प्रतिनिधित्व आधारित फिंगरप्रिंट पहचान विधि है। यह किसी विशिष्ट परत के प्रतिनिधित्व पर निर्भर नहीं करती है, बल्कि LLM की शक्तिशाली प्रतिनिधित्व मॉडलिंग क्षमता का उपयोग करके, विभिन्न परतों से विशेषताएँ निकालती है।
यह समान नमूनों पर दो मॉडलों के विशेषता प्रतिनिधित्व के केंद्रीय कोर संरेखण (CKA) समानता की तुलना करती है। CKA एक हिल्बर्ट-श्मिड्ट स्वतंत्रता मानदंड (HSIC) पर आधारित समानता सूचकांक है, जो दो समूहों के यादृच्छिक चर के बीच स्वतंत्रता को माप सकता है।
यदि समानता उच्च है, तो यह संकेत करता है कि संदिग्ध मॉडल संभवतः पीड़ित मॉडल से व्युत्पन्न है; अन्यथा, यह कम संभावना है।
REEF के क्या फायदे हैं?
कोई प्रशिक्षण की आवश्यकता नहीं: इसका मतलब है कि यह मॉडल के प्रदर्शन को प्रभावित नहीं करता है, और न ही अतिरिक्त प्रशिक्षण लागत को बढ़ाता है।
मजबूती: यह मॉडल प्रूनिंग, फाइन-ट्यूनिंग, मर्जिंग, एरेजमेंट और स्केलिंग ट्रांसफॉर्मेशन जैसे विभिन्न बाद के विकास के प्रति मजबूत है। यहां तक कि यदि संदिग्ध मॉडल को बड़े पैमाने पर फाइन-ट्यूनिंग (700B टोकन डेटा की मात्रा तक) किया गया है, तो भी REEF प्रभावी ढंग से पहचान सकता है कि क्या यह पीड़ित मॉडल से उत्पन्न हुआ है।
सैद्धांतिक आश्वासन: शोधकर्ताओं ने सैद्धांतिक रूप से साबित किया है कि CKA पंक्ति व्यवस्था और स्केलिंग ट्रांसफॉर्मेशन के प्रति अपरिवर्तनीय है।
प्रयोगात्मक परिणाम बताते हैं कि REEF "पैकेजिंग" मॉडल की पहचान में उत्कृष्ट प्रदर्शन करता है, जो मौजूदा वजन और अर्थ विश्लेषण आधारित विधियों से बेहतर है।
REEF की उपस्थिति, LLM की बौद्धिक संपदा की सुरक्षा के लिए एक नया उपकरण प्रदान करती है, जो अनधिकृत उपयोग या मॉडल की नकल जैसे अनैतिक या अवैध कार्यों के खिलाफ मदद करती है।
पत्र का पता: https://arxiv.org/pdf/2410.14273