हाल ही में, झेजियांग विश्वविद्यालय और अलीबाबा दमो学院 ने एक आकर्षक अनुसंधान प्रकाशित किया, जिसका उद्देश्य शिक्षण वीडियो के माध्यम से उच्च गुणवत्ता वाले मल्टी-मोडल पाठ्यपुस्तकों का निर्माण करना है। यह नवोन्मेषी अनुसंधान परिणाम न केवल बड़े पैमाने पर भाषा मॉडल (VLMs) के प्रशिक्षण के लिए नए दृष्टिकोण प्रदान करता है, बल्कि यह शिक्षा संसाधनों के उपयोग के तरीके को भी बदल सकता है।
कृत्रिम बुद्धिमत्ता प्रौद्योगिकी के तेजी से विकास के साथ, VLMs के पूर्व-प्रशिक्षण सामग्री मुख्य रूप से चित्र-शब्द युग्म डेटा और चित्र-शब्द मिश्रित सामग्री पर निर्भर करती है। हालाँकि, वर्तमान में ये डेटा अधिकांशतः वेब से आते हैं, जहाँ पाठ और छवि के बीच संबंध कमजोर होता है और ज्ञान घनत्व अपेक्षाकृत कम होता है, जो जटिल दृश्य तर्क का प्रभावी समर्थन नहीं कर सकता।
इस चुनौती का सामना करने के लिए, अनुसंधान टीम ने इंटरनेट पर विशाल शिक्षण वीडियो से उच्च गुणवत्ता वाले ज्ञान सामग्री को निकालने का निर्णय लिया। उन्होंने 159,000 से अधिक शिक्षण वीडियो एकत्र किए, जिनमें से 75,000 उच्च गुणवत्ता वाले वीडियो को बारीकी से फ़िल्टर और संसाधित किया गया, जिसमें गणित, भौतिकी, रसायन विज्ञान सहित कई विषय शामिल हैं, जिनकी कुल अवधि 22,000 घंटे से अधिक है।
अनुसंधानकर्ताओं ने "वीडियो से पाठ्यपुस्तक" प्रक्रिया के लिए एक जटिल पाइपलाइन डिज़ाइन की। सबसे पहले, स्वचालित वॉयस पहचान (ASR) तकनीक का उपयोग करके वीडियो में व्याख्यान सामग्री को पाठ में ट्रांसक्राइब किया गया, फिर छवि विश्लेषण और पाठ मिलान के माध्यम से, ज्ञान बिंदुओं से अत्यधिक संबंधित अंशों को छांटा गया। अंततः, इन संसाधित किए गए कुंजी फ्रेम, OCR पाठ और ट्रांसक्रिप्टेड पाठ को एकत्रित किया गया, जिससे एक सामग्री समृद्ध, संरचना के अनुसार सुसंगत मल्टी-मोडल पाठ्यपुस्तक बनी।
इस अनुसंधान के प्रारंभिक परिणामों से पता चलता है कि पिछले वेब-केंद्रित डेटा सेट की तुलना में, नए उत्पन्न पाठ्यपुस्तक डेटा सेट में ज्ञान घनत्व और छवि संबंधिता में महत्वपूर्ण सुधार हुआ है, जो VLMs के अध्ययन के लिए एक अधिक मजबूत आधार प्रदान करता है। इसके अलावा, इस अनुसंधान ने अकादमिक समुदाय का व्यापक ध्यान आकर्षित किया है, संबंधित डेटा सेट ने हगिंग फेस प्लेटफ़ॉर्म पर तेजी से लोकप्रियता हासिल की, और केवल दो सप्ताह में डाउनलोड की संख्या 7000 से अधिक हो गई।
इस नवोन्मेषी प्रयास के माध्यम से, अनुसंधानकर्ता न केवल VLMs के विकास को बढ़ावा देने की उम्मीद कर रहे हैं, बल्कि शिक्षा संसाधनों के एकीकरण और अनुप्रयोग में नए संभावनाओं की शुरुआत भी कर रहे हैं।
पेपर का पता: https://arxiv.org/pdf/2501.00958