एप्पल कंपनी ने हाल ही में एक तकनीकी पत्र प्रकाशित किया, जिसमें "Apple Intelligence" श्रृंखला के जनरेटिव आर्टिफिशियल इंटेलिजेंस क्षमताओं के विकास के लिए बनाए गए मॉडल का विस्तार से वर्णन किया गया है। ये क्षमताएँ आने वाले कुछ महीनों में iOS, macOS और iPadOS प्लेटफार्मों पर पेश की जाएँगी। इस पत्र में, एप्पल ने अपने प्रशिक्षण मॉडल की प्रक्रिया में नैतिकता के मुद्दों पर उठे सवालों का जवाब दिया और पुनः पुष्टि की कि उन्होंने किसी भी निजी उपयोगकर्ता डेटा का उपयोग नहीं किया, बल्कि प्रशिक्षण के लिए सार्वजनिक रूप से उपलब्ध डेटा और अनुमोदित डेटा का उपयोग किया।
चित्र स्रोत नोट: चित्र AI द्वारा उत्पन्न, चित्र अनुमोदन सेवा प्रदाता Midjourney
एप्पल ने कहा कि प्री-ट्रेनिंग डेटा सेट में प्रकाशकों के अनुमोदित डेटा, सावधानीपूर्वक चयनित सार्वजनिक डेटा सेट और इसके वेब क्रॉलर Applebot द्वारा खींची गई सार्वजनिक जानकारी शामिल है। एप्पल ने जोर देकर कहा कि उपयोगकर्ता की गोपनीयता की सुरक्षा के महत्व को ध्यान में रखते हुए, इन डेटा में कोई निजी उपयोगकर्ता जानकारी शामिल नहीं है।
जुलाई में, कुछ मीडिया ने रिपोर्ट किया कि एप्पल ने "The Pile" नामक डेटा सेट का उपयोग किया, जिसमें लाखों YouTube वीडियो के सबटाइटल शामिल हैं, जबकि कई सबटाइटल निर्माता इसके बारे में अनजान थे और न ही अनुमति दी थी। इस पर, एप्पल ने बाद में कहा कि वे इन मॉडलों का उपयोग उत्पादों के लिए किसी भी AI सुविधा प्रदान करने के लिए नहीं करने का इरादा रखते हैं।
यह तकनीकी पत्र पहली बार एप्पल के 2024 के WWDC सम्मेलन में घोषित "एप्पल फाउंडेशन मॉडल" (AFM) का रहस्योद्घाटन करता है, जिसमें इन मॉडलों के प्रशिक्षण डेटा को "जिम्मेदारी से" प्राप्त किया गया है। AFM मॉडल के प्रशिक्षण डेटा सार्वजनिक वेब डेटा और कुछ अप्रकाशित प्रकाशकों के अनुमोदित डेटा से आते हैं। रिपोर्टों के अनुसार, एप्पल ने 2023 के अंत में NBC, कॉनडे नास्ट सहित कई प्रकाशकों से संपर्क किया और उनके समाचार अभिलेखों का उपयोग करने के लिए कम से कम 50 मिलियन डॉलर का दीर्घकालिक समझौता किया। इसके अलावा, AFM मॉडल ने GitHub पर होस्ट किए गए ओपन-सोर्स कोड का भी उपयोग किया, जिसमें Swift, Python, C सहित कई प्रोग्रामिंग भाषाओं का कोड शामिल है।
हालांकि, ओपन-सोर्स कोड का उपयोग करते हुए मॉडल प्रशिक्षण ने डेवलपर्स के बीच विवाद उत्पन्न किया है। कुछ ओपन-सोर्स कोडबेस की अनुमति नहीं है, या AI प्रशिक्षण के लिए उपयोग की अनुमति नहीं है, लेकिन एप्पल ने कहा कि वे "अनुमति फ़िल्टरिंग" के माध्यम से केवल उन कोडबेस का चयन करेंगे जिन पर कम प्रतिबंध हैं।
AFM मॉडल की गणितीय क्षमताओं को बढ़ाने के लिए, एप्पल ने प्रशिक्षण डेटा सेट में विशेष रूप से वेब, गणित फोरम, ब्लॉग, ट्यूटोरियल और कार्यशालाओं से गणित के प्रश्न और उत्तर जोड़े। इसके अलावा, उन्होंने "उच्च गुणवत्ता, सार्वजनिक रूप से उपलब्ध" डेटा सेट का उपयोग करके मॉडल को और बेहतर बनाने का प्रयास किया, ताकि मॉडल के अनुचित व्यवहार उत्पन्न करने की संभावनाओं को कम किया जा सके।
संविलित डेटा सेट में लगभग 6.3 ट्रिलियन टैग शामिल हैं, जबकि इसके विपरीत, मेटा ने अपने प्रमुख टेक्स्ट जनरेशन मॉडल Llama3.1405B के लिए 15 ट्रिलियन डेटा का उपयोग किया। एप्पल ने मानव फीडबैक और सिंथेटिक डेटा के माध्यम से AFM मॉडल को और अनुकूलित किया, ताकि इसे उपयोगकर्ता की आवश्यकताओं के अधिक अनुरूप बनाया जा सके।
हालांकि इस पत्र में कोई चौंकाने वाली खोज नहीं की गई, लेकिन यह एक सावधानीपूर्वक डिज़ाइन का परिणाम है। क्योंकि अधिकांश इस तरह के पत्र अधिक विस्तृत नहीं होते हैं, ताकि कानूनी मुद्दों से बचा जा सके। एप्पल ने पत्र में उल्लेख किया कि वे वेब प्रशासकों को डेटा को खींचने से रोकने की अनुमति देते हैं, लेकिन यह व्यक्तिगत निर्माताओं के लिए बहुत मददगार नहीं है, अपने काम की सुरक्षा कैसे करें, यह अभी भी एक समाधान की आवश्यकता वाला मुद्दा है।
मुख्य बिंदु:
🌟 एप्पल ने जोर दिया कि प्रशिक्षण मॉडल के दौरान निजी उपयोगकर्ता डेटा का उपयोग नहीं किया गया, बल्कि सार्वजनिक और अनुमोदित डेटा पर निर्भर किया गया।
📊 प्रशिक्षण डेटा में कई प्रकाशकों की अनुमोदित सामग्री और ओपन-सोर्स कोडबेस शामिल हैं।
🔍 एप्पल उपयोगकर्ता की गोपनीयता की रक्षा करते हुए AI मॉडल के प्रदर्शन और जिम्मेदारी को बढ़ाने के लिए प्रयासरत है।