हाल ही में, Nous Research की शोध टीम ने टेक्नोलॉजी क्षेत्र में एक रोमांचक खबर दी है, उन्होंने DisTrO (वितरित इंटरनेट प्रशिक्षण) नामक एक नया ऑप्टिमाइज़र पेश किया है। इस तकनीक के जन्म का मतलब है कि शक्तिशाली AI मॉडल अब केवल बड़ी कंपनियों की संपत्ति नहीं हैं, आम लोग भी अपने घरों में अपने कंप्यूटर का उपयोग करके प्रभावी प्रशिक्षण प्राप्त कर सकते हैं।

DisTrO की जादुई विशेषता यह है कि यह AI मॉडल को प्रशिक्षित करते समय कई ग्राफिक्स प्रोसेसिंग यूनिट (GPU) के बीच जानकारी के संचरण की मात्रा को काफी कम कर सकता है। इस नवाचार के माध्यम से, शक्तिशाली AI मॉडल सामान्य नेटवर्क परिस्थितियों में प्रशिक्षण प्राप्त कर सकते हैं, यहां तक कि विश्वभर के व्यक्ति या संस्थाएँ मिलकर AI तकनीक विकसित करने के लिए सहयोग कर सकते हैं।

image.png

Nous Research के तकनीकी लेख के अनुसार, DisTrO की दक्षता में अद्भुत वृद्धि हुई है, इसका उपयोग करने पर प्रशिक्षण की दक्षता एक सामान्य एल्गोरिदम - All-Reduce की तुलना में 857 गुना बढ़ गई है, जबकि प्रत्येक प्रशिक्षण चरण में संचरण की मात्रा 74.4GB से घटकर 86.8MB हो गई है। इस तरह की वृद्धि ने प्रशिक्षण को न केवल तेज और सस्ता बनाया है, बल्कि अधिक लोगों को इस क्षेत्र में भाग लेने का अवसर भी दिया है।

Nous Research ने अपने सोशल प्लेटफॉर्म पर कहा है कि DisTrO के माध्यम से, शोधकर्ता और संस्थाएँ अब किसी एक कंपनी पर निर्भर नहीं हैं जो प्रशिक्षण प्रक्रिया का प्रबंधन और नियंत्रण करती है, जिससे उन्हें नवाचार और प्रयोग करने की अधिक स्वतंत्रता मिलती है। यह खुला प्रतिस्पर्धा का वातावरण तकनीकी प्रगति को बढ़ावा देने में मदद करता है, जो अंततः समाज के समग्र कल्याण में योगदान देता है।

AI प्रशिक्षण में, हार्डवेयर की मांग अक्सर लोगों को निराश कर देती है। विशेष रूप से, उच्च प्रदर्शन वाले Nvidia GPU इस युग में अधिक दुर्लभ और महंगे हो गए हैं, केवल कुछ धनवान कंपनियाँ इस प्रशिक्षण का भारी बोझ उठा सकती हैं। हालाँकि, Nous Research का सिद्धांत इसके विपरीत है, वे कम लागत पर AI मॉडल के प्रशिक्षण को जनता के लिए खोलने के लिए प्रयासरत हैं, ताकि अधिक लोग भाग ले सकें।

DisTrO का कार्यप्रणाली यह है कि यह GPU के बीच पूर्ण ग्रेडिएंट समन्वय की आवश्यकता को कम करके संचार लागत को चार से पाँच गुना कम कर देता है। यह नवाचार AI मॉडल को धीमे इंटरनेट कनेक्शन पर प्रशिक्षण प्राप्त करने में सक्षम बनाता है, आजकल कई घरों में आसानी से 100Mbps डाउनलोड और 10Mbps अपलोड की गति उपलब्ध है।

Meta के Llama2 बड़े भाषा मॉडल पर किए गए प्रारंभिक परीक्षण में, DisTrO ने पारंपरिक विधियों के समान प्रशिक्षण प्रभावशीलता दिखाई, जबकि आवश्यक संचार मात्रा को काफी कम कर दिया। शोधकर्ताओं ने यह भी बताया कि हालाँकि वर्तमान में केवल छोटे मॉडल पर परीक्षण किया गया है, लेकिन उनका प्रारंभिक अनुमान है कि जैसे-जैसे मॉडल का आकार बढ़ेगा, संचार की आवश्यकता में कमी और भी अधिक स्पष्ट हो सकती है, यहां तक कि 1000 से 3000 गुना तक।

यह ध्यान देने योग्य है कि, हालांकि DisTrO प्रशिक्षण को अधिक लचीला बनाता है, यह अभी भी GPU के समर्थन पर निर्भर करता है, केवल अब ये GPU एक ही स्थान पर केंद्रित नहीं होते, बल्कि दुनिया भर में फैले होते हैं और सामान्य इंटरनेट के माध्यम से सहयोग कर सकते हैं। हमने देखा कि DisTrO ने 32 H100 GPU का उपयोग करते समय पारंपरिक AdamW+All-Reduce विधि के साथ समेकन गति में मेल खाया, लेकिन संचार की आवश्यकता को काफी कम कर दिया।

DisTrO न केवल बड़े भाषा मॉडल के लिए उपयुक्त है, बल्कि यह छवि उत्पन्न करने वाले मॉडल जैसे अन्य प्रकार के AI को प्रशिक्षित करने के लिए भी संभावित है, भविष्य के अनुप्रयोगों की संभावनाएँ रोमांचक हैं। इसके अलावा, प्रशिक्षण की दक्षता को बढ़ाकर, DisTrO AI प्रशिक्षण के पर्यावरण पर प्रभाव को भी कम कर सकता है, क्योंकि यह मौजूदा अवसंरचना के उपयोग को अधिकतम करता है और बड़े डेटा केंद्रों की आवश्यकता को कम करता है।

DisTrO के माध्यम से, Nous Research ने न केवल AI प्रशिक्षण में तकनीकी प्रगति को बढ़ावा दिया है, बल्कि एक अधिक खुला और लचीला शोध पारिस्थितिकी तंत्र भी विकसित किया है, जो भविष्य के AI विकास के लिए अनंत संभावनाएँ खोलता है।

संदर्भ सामग्री: https://venturebeat.com/ai/this-could-change-everything-nous-research-unveils-new-tool-to-train-powerful-ai-models-with-10000x-efficiency/