NASA के अंतर-संस्थान कार्यान्वयन और उन्नत अवधारणा टीम (IMPACT) ने निजी, गैर-फेडरल भागीदारों के साथ अंतरिक्ष अधिनियम समझौते पर हस्ताक्षर करके INDUS का संयुक्त विकास किया है, जो पृथ्वी विज्ञान, जैव और भौतिक विज्ञान, सौर भौतिकी, ग्रह विज्ञान और खगोल भौतिकी जैसे क्षेत्रों के लिए एक बड़े भाषा मॉडल (LLM) का सेट है, और विविध डेटा स्रोतों से संकलित वैज्ञानिक साहित्य का उपयोग करके प्रशिक्षित किया गया है।

image.png

INDUS में दो प्रकार के मॉडल शामिल हैं: एनकोडर और वाक्य परिवर्तक। एनकोडर प्राकृतिक भाषा पाठ को डिजिटल कोडिंग में परिवर्तित करता है, जिसे LLM द्वारा संसाधित किया जा सकता है। INDUS एनकोडर को खगोल भौतिकी, ग्रह विज्ञान, पृथ्वी विज्ञान, सौर भौतिकी, जैव विज्ञान और भौतिक विज्ञान डेटा के 60 अरब टोकन कॉर्पस पर प्रशिक्षित किया गया है। IMPACT-IBM सहयोगी टीम द्वारा विकसित कस्टम टोकनाइज़र ने जैविक संकेतक और फास्फोरिलेशन जैसे वैज्ञानिक शर्तों की पहचान करके सामान्य टोकनाइज़र में सुधार किया है। INDUS में 50,000 से अधिक शब्दों में से आधे से अधिक विशेष वैज्ञानिक क्षेत्रों के लिए अद्वितीय हैं, जिनका उपयोग इसके प्रशिक्षण में किया गया है। INDUS एनकोडर मॉडल को लगभग 2.68 करोड़ पाठ युग्मों पर सूक्ष्म-समायोजित किया गया है, जिसमें शीर्षक/सारांश और प्रश्न/उत्तर शामिल हैं।

INDUS को क्षेत्र विशेष शब्दावली प्रदान करके, IMPACT-IBM टीम ने जैव चिकित्सा कार्य बेंचमार्क, वैज्ञानिक प्रश्नोत्तर बेंचमार्क और पृथ्वी विज्ञान प्राणी पहचान परीक्षणों पर ओपन, गैर-क्षेत्र विशेष LLM की तुलना में उत्कृष्ट प्रदर्शन किया है। विविध भाषा कार्यों और पुनर्प्राप्ति संवर्धित उत्पादन को डिज़ाइन करके, INDUS शोधकर्ताओं के प्रश्नों को संभालने, संबंधित दस्तावेज़ों को पुनर्प्राप्त करने और उत्तर उत्पन्न करने में सक्षम है। देरी-संवेदनशील अनुप्रयोगों के लिए, टीम ने छोटे और तेज एनकोडर और वाक्य परिवर्तक मॉडल संस्करण विकसित किए हैं।

पुष्टि परीक्षणों से पता चला है कि INDUS NASA के लगभग 400 प्रश्नों के परीक्षण सेट का उत्तर देने में वैज्ञानिक साहित्य से संबंधित अनुच्छेदों को पुनर्प्राप्त करने में सक्षम है। IBM के शोधकर्ता Bishwaranjan Bhattacharjee ने समग्र दृष्टिकोण पर टिप्पणी की, “हमने न केवल कस्टम शब्दावली के साथ, बल्कि विशेष रूप से प्रशिक्षित एनकोडर मॉडलों और अच्छे प्रशिक्षण रणनीतियों के साथ उत्कृष्ट प्रदर्शन किया है। छोटे और तेज संस्करणों के लिए, हमने मॉडल आर्किटेक्चर प्राप्त करने के लिए न्यूरल आर्किटेक्चर खोज का उपयोग किया और बड़े मॉडल पर्यवेक्षण का उपयोग करके ज्ञान आसवन के लिए प्रशिक्षण किया।”

मुख्य बिंदु:

- 🚀NASA और IBM ने पृथ्वी विज्ञान, जैव और भौतिक विज्ञान, सौर भौतिकी, ग्रह विज्ञान और खगोल भौतिकी जैसे क्षेत्रों के लिए INDUS बड़े भाषा मॉडल विकसित करने के लिए सहयोग किया।

- 🎓INDUS में एनकोडर और वाक्य परिवर्तक के दो प्रकार के मॉडल शामिल हैं, जो कस्टम टोकनाइज़र और 60 अरब टोकन कॉर्पस का उपयोग करके प्रशिक्षित हैं, और लगभग 2.68 करोड़ पाठ युग्मों पर सूक्ष्म-समायोजित हैं।

- 💡INDUS क्षेत्र विशेष शब्दावली और विविध भाषा कार्यों और पुनर्प्राप्ति संवर्धित उत्पादन को डिज़ाइन करके ओपन, गैर-क्षेत्र विशेष LLM की तुलना में उत्कृष्ट प्रदर्शन प्राप्त करता है, और शोधकर्ताओं के प्रश्नों को संभालने, संबंधित दस्तावेज़ों को पुनर्प्राप्त करने और उत्तर उत्पन्न करने में सक्षम है।