हाल ही में हार्वर्ड विश्वविद्यालय ने घोषणा की है कि वह लगभग 10 लाख सार्वजनिक क्षेत्र की पुस्तकों से मिलकर बने एक डेटा सेट को जारी करने की योजना बना रहा है, जिसे कोई भी बड़े भाषा मॉडल और अन्य कृत्रिम बुद्धिमत्ता उपकरणों को प्रशिक्षित करने के लिए उपयोग कर सकता है।

यह परियोजना हार्वर्ड विश्वविद्यालय की नई स्थापित संस्था डेटा पहल (Institutional Data Initiative) द्वारा संचालित की जा रही है, और इसे माइक्रोसॉफ्ट और OpenAI की वित्तीय सहायता से पूरा किया गया है। इस डेटा सेट में गूगल बुक्स प्रोजेक्ट से स्कैन की गई किताबें शामिल हैं, जिसमें शेक्सपियर, डिकेंस, डांटे जैसे क्लासिक काम और कुछ अस्पष्ट चेक गणित पाठ्यपुस्तकें और वेल्श शब्दकोश जैसी सामग्री शामिल हैं।

AI सहायक रोबोट

छवि स्रोत टिप्पणी: छवि AI द्वारा उत्पन्न की गई, छवि अधिकार सेवा प्रदाता Midjourney

यह डेटा सेट "Books3 डेटा सेट" से पांच गुना बड़ा है, जिसका उद्देश्य कृत्रिम बुद्धिमत्ता के क्षेत्र में एक निष्पक्ष प्रतिस्पर्धात्मक वातावरण प्रदान करना है, ताकि जनता, विशेष रूप से छोटे AI कंपनियों और व्यक्तिगत शोधकर्ताओं को उच्च गुणवत्ता वाले डेटा तक पहुंच मिल सके, जो आमतौर पर केवल बड़े तकनीकी कंपनियों द्वारा एकत्रित किया जा सकता है। ग्रेग लेपर्ट (Greg Leppert) ने कहा कि इस परियोजना को सख्त चयन प्रक्रिया के माध्यम से तैयार किया गया है।

माइक्रोसॉफ्ट के उपाध्यक्ष बर्टन डेविस ने जोर दिया कि माइक्रोसॉफ्ट का इस परियोजना का समर्थन करने का उद्देश्य स्टार्टअप कंपनियों के लिए एक "सुलभ डेटा पूल" बनाना है, और यह सुनिश्चित करना है कि ये डेटा "जनहित के आधार पर" प्रबंधित किए जाएं। OpenAI के बौद्धिक संपदा प्रमुख टॉम रुबिन ने भी कहा कि कंपनी इस परियोजना का समर्थन करने में खुश है।

जैसे-जैसे AI द्वारा कॉपीराइट डेटा के उपयोग के बारे में मुकदमे बढ़ रहे हैं, हार्वर्ड जैसे सार्वजनिक क्षेत्र के डेटा सेट की परियोजनाएं AI प्रशिक्षण डेटा का एक महत्वपूर्ण स्रोत बनती जा रही हैं। हालाँकि यह स्पष्ट नहीं है कि इस डेटा सेट को विशेष रूप से कैसे जारी किया जाएगा, लेकिन यह अपेक्षित है कि यह कंपनियों को उच्च गुणवत्ता वाले डेटा की एक बड़ी मात्रा प्रदान करेगा, जबकि कॉपीराइट मुद्दों से बचने में मदद करेगा।

हार्वर्ड विश्वविद्यालय की "संस्थान डेटा पहल" केवल पुस्तकों तक सीमित नहीं है, बल्कि यह बोस्टन पब्लिक लाइब्रेरी के साथ सहयोग में लाखों सार्वजनिक क्षेत्र के समाचार लेखों को स्कैन कर रही है, और भविष्य में अधिक साझेदारों के साथ इसी तरह के सहयोग की योजना बना रही है। इसके अलावा, हार्वर्ड गूगल के साथ सहयोग कर रहा है कि कैसे डेटा सेट का सार्वजनिक वितरण किया जाए।

यह परियोजना कई समान पहलों में शामिल होगी, जो उच्च गुणवत्ता के AI प्रशिक्षण सामग्री प्रदान करने और कॉपीराइट जोखिम से बचने का वादा करती हैं। भविष्य में, जैसे-जैसे अधिक सार्वजनिक क्षेत्र के डेटा सेट सामने आएंगे, AI कंपनियों के पास अपने मॉडल को प्रशिक्षित करने के लिए अधिक विकल्प होंगे, साथ ही कॉपीराइट से संबंधित कानूनी जोखिम को कम किया जा सकेगा।