तेजी से विकसित हो रहे जनरेटिव एआई क्षेत्र में, Nous Research टीम एक अनोखे प्रयोग पर काम कर रही है: वे दुनिया भर में फैले मशीनों का उपयोग करके 15 अरब पैरामीटर वाले बड़े भाषा मॉडल (LLM) को पूर्व-प्रशिक्षित कर रहे हैं, यह प्रक्रिया पारंपरिक रूप से महंगे और ऊर्जा-खपत वाले डेटा केंद्रों या सुपरक्लस्टरों में केंद्रित विकास की आवश्यकता से बचती है।

image.png

Nous Research अपने विशेष वेबसाइट distro.nousresearch.com पर इस पूर्व-प्रशिक्षण प्रक्रिया को लाइव स्ट्रीम कर रहा है, वास्तविक समय में विभिन्न मानदंडों पर मॉडल के प्रदर्शन को प्रदर्शित कर रहा है, और प्रशिक्षण में भाग लेने वाले हार्डवेयर की स्थिति का मानचित्र प्रदान कर रहा है, जिसमें अमेरिका और यूरोप के कई स्थान शामिल हैं। इस लेख के प्रकाशन के समय, पूर्व-प्रशिक्षण का शेष समय लगभग 57 घंटे (यानी 2.3 दिन) है, जबकि पूरा किया गया प्रशिक्षण प्रगति 75% से अधिक है।

पूर्व-प्रशिक्षण LLM को प्रशिक्षित करने का पहला और सबसे मूलभूत कदम है, जिसमें भाषा के सांख्यिकीय गुणों और संरचना को सीखने के लिए बड़ी मात्रा में पाठ डेटा का प्रशिक्षण शामिल है। इस चरण में, मॉडल व्यापक पाठ डेटा सेट को संसाधित करके भाषा के पैटर्न, व्याकरण और शब्दावली के बीच संदर्भ संबंधों को पकड़ता है। यह प्रक्रिया मॉडल को भाषा की व्यापक समझ प्रदान करती है, जिससे वह संगठित पाठ उत्पन्न कर सकता है और विभिन्न भाषा-संबंधित कार्यों को निष्पादित कर सकता है। पूर्व-प्रशिक्षण के बाद, मॉडल को विशिष्ट कार्य या क्षेत्र के लिए फाइन-ट्यूनिंग की आवश्यकता होती है।

यदि यह योजना सफल होती है, तो Nous Research यह साबित करेगा कि महंगे सुपरक्लस्टरों या निम्न विलंबता प्रसारण के बिना भी अत्याधुनिक स्तर के LLM को प्रशिक्षित किया जा सकता है, जो वितरित एआई प्रशिक्षण के नए युग की शुरुआत का प्रतीक है। यह ओपन-सोर्स प्रशिक्षण विधि जनरेटिव एआई के शक्ति संतुलन को बदल सकती है, जिससे छोटे दल और गैर-व्यवसायिक कार्यकर्ता इस क्षेत्र में अधिक प्रतिस्पर्धात्मक बन सकते हैं।

Nous द्वारा उपयोग की जाने वाली यह नई तकनीक Nous DisTrO (Distributed Training Over-the-Internet) कहलाती है, जिसका उद्देश्य पूर्व-प्रशिक्षण प्रक्रिया में GPU के बीच संचार बैंडविड्थ की आवश्यकता को कम करना है। Nous Research के नवीनतम प्रकाशन के अनुसार, DisTrO संचार की आवश्यकता को 10,000 गुना तक कम करने में सक्षम है, जिससे धीमी और सस्ती इंटरनेट कनेक्शन की स्थिति में भी प्रतिस्पर्धात्मक संकुचन दर और हानि वक्र बनाए रखना संभव हो जाता है।

इसके अलावा, DisTrO की मुख्य उपलब्धि GPU के बीच विनिमय किए जाने वाले डेटा की मात्रा को प्रभावी ढंग से संकुचित करना है, बिना मॉडल के प्रदर्शन को प्रभावित किए। यह तकनीक पूर्व के डीकपल्ड मोमेंटम ऑप्टिमाइजेशन एल्गोरिदम (DeMo) पर आधारित है, जिसका उद्देश्य भी GPU के बीच संचार की आवश्यकता को काफी कम करना है, जबकि प्रशिक्षण प्रदर्शन को बनाए रखा जाए।

हार्डवेयर के संदर्भ में, Nous Research के पूर्व-प्रशिक्षण प्रक्रिया को Oracle, Lambda Labs, Northern Data Group, Crusoe Cloud और Andromeda Cluster जैसी कई प्रसिद्ध साझेदारियों का समर्थन प्राप्त है, जो आवश्यक विविध हार्डवेयर प्रदान कर रहे हैं और DisTrO की वास्तविक वितरित वातावरण में क्षमता का परीक्षण कर रहे हैं।

ब्लॉग प्रवेश: https://nousresearch.com/

मुख्य बिंदु:

🌐 Nous Research वैश्विक वितरित एआई प्रशिक्षण कर रहा है, जिसका उद्देश्य 15 अरब पैरामीटर वाले बड़े भाषा मॉडल को पूर्व-प्रशिक्षित करना है।  

💻 Nous DisTrO तकनीक का उपयोग करते हुए, यह प्रक्रिया GPU के बीच संचार बैंडविड्थ की आवश्यकता को काफी कम करती है, जिससे कम लागत वाले प्रशिक्षण को संभव बनाती है।  

🤝 इस परियोजना को कई हार्डवेयर आपूर्तिकर्ताओं का समर्थन प्राप्त है, जो वितरित एआई अनुसंधान की प्रगति को बढ़ावा दे रहे हैं।