हार्वर्ड विश्वविद्यालय ने गुरुवार को घोषणा की कि वह लगभग एक मिलियन सार्वजनिक डोमेन पुस्तकों का उच्च गुणवत्ता वाला डेटा सेट सार्वजनिक करेगा, जिसे कोई भी बड़े भाषा मॉडल और अन्य एआई उपकरणों को प्रशिक्षित करने के लिए उपयोग कर सकता है। यह डेटा सेट हार्वर्ड विश्वविद्यालय के नए स्थापित संस्थागत डेटा पहल (Institutional Data Initiative) द्वारा बनाया गया है, और इसे माइक्रोसॉफ्ट और OpenAI से वित्तीय समर्थन प्राप्त हुआ है। इसमें शामिल पुस्तकें Google पुस्तक परियोजना द्वारा स्कैन की गई हैं और अब कॉपीराइट संरक्षण से मुक्त हैं।

यह डेटा सेट Meta Llama जैसे एआई मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले कुख्यात Books3 डेटा सेट के आकार का लगभग पांच गुना है। इसमें विभिन्न प्रकार, युग और भाषाओं की कृतियाँ शामिल हैं, जिनमें शेक्सपियर, चार्ल्स डिकेंस और डांटे के क्लासिक्स के साथ-साथ कम ज्ञात चेक गणित पाठ्यपुस्तकें और वेल्श जेब शब्दकोश भी शामिल हैं। संस्थागत डेटा पहल के कार्यकारी निदेशक ग्रेग लेपर्ट ने कहा कि इस परियोजना का उद्देश्य एआई उद्योग के छोटे खिलाड़ियों और व्यक्तिगत शोधकर्ताओं सहित जनता को एक ऐसा अत्यधिक परिष्कृत और चयनित सामग्री भंडार प्रदान करना है, जिसे आमतौर पर केवल स्थापित तकनीकी दिग्गज ही इकट्ठा कर सकते हैं, ताकि "एक समान प्रतिस्पर्धा का माहौल बनाया जा सके।" उन्होंने कहा, "यह एक कड़ी समीक्षा के माध्यम से गया है।"

पुस्तकालय अध्ययन पढ़ाई (2)

छवि स्रोत नोट: छवि एआई द्वारा उत्पन्न, छवि लाइसेंस सेवा प्रदाता Midjourney

लेपर्ट का मानना है कि नया सार्वजनिक डोमेन डेटाबेस अन्य लाइसेंस प्राप्त सामग्री के साथ मिलकर एआई मॉडल बनाने के लिए उपयोग किया जा सकता है। उन्होंने कहा, "मुझे लगता है कि यह कुछ ऐसा है जैसे लिनक्स ने दुनिया के कई क्षेत्रों में एक बुनियादी ऑपरेटिंग सिस्टम के रूप में कार्य किया।" उन्होंने यह भी कहा कि कंपनियों को अपने मॉडल को प्रतिस्पर्धियों के मॉडल से अलग करने के लिए अतिरिक्त प्रशिक्षण डेटा का उपयोग करना होगा।

माइक्रोसॉफ्ट के आईपी वाइस प्रेसिडेंट और उप सामान्य काउंसल बर्टन डेविस ने इस परियोजना के प्रति कंपनी के समर्थन को "सार्वजनिक हित के लिए अभिप्रेत" डेटा पूल बनाने के अपने व्यापक विश्वास के अनुरूप बताया। दूसरे शब्दों में, माइक्रोसॉफ्ट जरूरी नहीं कि अपने मॉडल में उपयोग किए जाने वाले सभी एआई प्रशिक्षण डेटा को सार्वजनिक डोमेन के विकल्पों से बदलने की योजना बना रहा है, जैसे कि हार्वर्ड के नए डेटाबेस में पुस्तकें। "हम अपने मॉडल को प्रशिक्षित करने के लिए सार्वजनिक रूप से उपलब्ध डेटा का उपयोग करते हैं," डेविस ने कहा।

जबकि कई कॉपीराइटेड डेटा का उपयोग करके एआई को प्रशिक्षित करने के बारे में दर्जनों मुकदमे अदालतों में चल रहे हैं, एआई उपकरणों के भविष्य के निर्माण का तरीका अनिश्चित है। यदि एआई कंपनियाँ जीत जाती हैं, तो वे इंटरनेट को खंगालना जारी रख सकेंगी, बिना कॉपीराइट धारकों के साथ लाइसेंस समझौते पर हस्ताक्षर किए। लेकिन यदि वे हार जाती हैं, तो एआई कंपनियों को अपने मॉडल बनाने के तरीके में पूरी तरह से सुधार करने के लिए मजबूर किया जा सकता है। हार्वर्ड डेटाबेस जैसी परियोजनाएँ अभूतपूर्व गति से आगे बढ़ रही हैं, जो यह मानती हैं कि—जो भी हो—लोग सार्वजनिक डोमेन के डेटा सेट की मांग करेंगे।

कई पुस्तकों के अलावा, संस्थागत डेटा पहल ने बोस्टन सार्वजनिक पुस्तकालय के साथ मिलकर विभिन्न समाचार पत्रों से सार्वजनिक डोमेन लेखों के लाखों को स्कैन करने के लिए सहयोग किया है। इस संस्थान ने भविष्य में समान सहयोग स्थापित करने की इच्छा व्यक्त की है। पुस्तक डेटा सेट के सटीक प्रकाशन के तरीके की अभी तक पुष्टि नहीं हुई है। संस्थागत डेटा पहल ने Google को सार्वजनिक वितरण में भाग लेने के लिए आमंत्रित किया है, लेकिन इस खोजी दिग्गज ने अभी तक इस डेटा सेट को होस्ट करने के लिए सार्वजनिक रूप से सहमति नहीं दी है, हालांकि हार्वर्ड विश्वविद्यालय ने इस पर आशावादी दृष्टिकोण व्यक्त किया है। (Google ने WIRED की टिप्पणी अनुरोध का उत्तर नहीं दिया।)

चाहे IDI का डेटा सेट कैसे भी प्रकाशित हो, यह समान परियोजनाओं, स्टार्टअप्स और पहलों की एक श्रृंखला में शामिल होगा, जो कंपनियों को बिना कॉपीराइट मुद्दों का सामना किए उच्च गुणवत्ता वाले एआई प्रशिक्षण सामग्री प्रदान करने के लिए बनाई गई हैं। Calliope Networks और ProRata जैसी कंपनियाँ पहले ही उभरी हैं, जो लाइसेंस प्रदान करती हैं और मुआवजा योजनाएँ डिज़ाइन करती हैं, जो रचनाकारों और अधिकार धारकों को एआई प्रशिक्षण डेटा प्रदान करने के लिए मुआवजा देने का लक्ष्य रखती हैं।

इसके अलावा, अन्य नए सार्वजनिक डोमेन परियोजनाएँ भी हैं। पिछले वसंत में, फ्रांसीसी एआई स्टार्टअप Pleis ने अपना सार्वजनिक डोमेन डेटा सेट Common Corpus लॉन्च किया, जिसमें परियोजना समन्वयक पियरे-कार्ल लोंगलेस के अनुसार लगभग 30 लाख से 40 लाख पुस्तकों और पत्रिकाओं का संग्रह है। फ्रांस के संस्कृति मंत्रालय के समर्थन से, Common Corpus केवल इस महीने ओपन-सोर्स एआई प्लेटफॉर्म Hugging Face पर 60,000 से अधिक बार डाउनलोड किया गया है। पिछले सप्ताह, Pleis ने घोषणा की कि वह अपने पहले बड़े भाषा मॉडल को जारी करेगा, जिसे इस डेटा सेट का उपयोग करके प्रशिक्षित किया गया है, लोंगलेस ने WIRED को बताया कि ये मॉडल "ऐतिहासिक रूप से पहली बार पूरी तरह से ओपन डेटा से प्रशिक्षित किए गए और [यूरोपीय संघ] एआई अधिनियम के अनुरूप हैं।"

वर्तमान में, समान चित्र डेटा सेट बनाने का काम भी चल रहा है। एआई स्टार्टअप Spawning ने इस गर्मी में Source.Plus नामक डेटा सेट जारी किया, जिसमें Wikimedia Commons और विभिन्न संग्रहालयों और अभिलेखागारों से सार्वजनिक डोमेन छवियाँ शामिल हैं। लंबे समय से, कुछ महत्वपूर्ण सांस्कृतिक संस्थाएँ (जैसे मेट्रोपॉलिटन म्यूज़ियम ऑफ़ आर्ट) ने स्वतंत्र परियोजनाओं के रूप में जनता के लिए अपने संग्रहालयों को खोला है।

Stability AI के पूर्व कार्यकारी एद न्यूटन-रेक्स अब एक गैर-लाभकारी संगठन का संचालन कर रहे हैं, जो नैतिक रूप से उचित एआई उपकरणों को प्रमाणित करता है। उन्होंने कहा कि ये डेटा सेट का उदय यह दर्शाता है कि बिना कॉपीराइटेड सामग्री की चोरी किए उच्च प्रदर्शन और उच्च गुणवत्ता के एआई मॉडल बनाए जा सकते हैं। OpenAI ने पहले ब्रिटिश विधायकों को बताया था कि कॉपीराइटेड कामों का उपयोग किए बिना, ChatGPT जैसे उत्पाद बनाना "संभव नहीं" है। "इस तरह के बड़े सार्वजनिक डोमेन डेटा सेट ने उन एआई कंपनियों द्वारा अपने मॉडल को प्रशिक्षित करने के लिए कॉपीराइटेड कामों को खंगालने के लिए जो 'आवश्यकता का बचाव' किया है, को और अधिक विघटन किया है," न्यूटन-रेक्स ने कहा।

लेकिन वह अभी भी IDI और समान परियोजनाओं के प्रशिक्षण की स्थिति को वास्तव में बदलने की संभावना के प्रति सतर्क है। "ये डेटा सेट केवल तभी सकारात्मक प्रभाव डालेंगे जब वे अन्य लाइसेंस प्राप्त डेटा के साथ मिलकर उपयोग किए जाएं ताकि कॉपीराइटेड कामों को खंगालने के लिए प्रतिस्थापित किया जा सके। यदि वे केवल मिश्रित डेटा सेट में जोड़े जाते हैं, जो दुनिया भर के रचनाकारों के बिना अनुमति के जीवन भर की मेहनत के डेटा सेट का एक हिस्सा बन जाते हैं, तो वे मुख्य रूप से एआई कंपनियों को लाभान्वित करेंगे," उन्होंने कहा।