Google DeepMind द्वारा प्रस्तुत मिलियन विशेषज्ञ मिश्रण मॉडल, एक ट्रांसफार्मर आर्किटेक्चर पर क्रांतिकारी कदम उठाने वाला शोध है।
कल्पना करें, एक ऐसा मॉडल जो एक मिलियन सूक्ष्म विशेषज्ञों में से स्पर्शक रूप से खोज कर सके, क्या यह थोड़ा विज्ञान कथा की कहानी जैसा नहीं लगता? लेकिन यही DeepMind का नवीनतम शोध成果 है। इस शोध का मूल एक पैरामीटर-कुशल विशेषज्ञ खोज तंत्र है, जो उत्पाद कुंजी तकनीक का उपयोग करता है, जिससे गणना की लागत और पैरामीटर की गणना को अलग किया जा सके, इस प्रकार गणना की दक्षता बनाए रखते हुए, ट्रांसफार्मर आर्किटेक्चर की बड़ी संभावनाओं को मुक्त करता है।
इस काम की विशेषता यह है कि यह न केवल चरम MoE सेटिंग्स का अन्वेषण करता है, बल्कि पहली बार यह साबित करता है कि सीखने की अनुक्रमणिका संरचना एक मिलियन से अधिक विशेषज्ञों को प्रभावी ढंग से मार्गदर्शित कर सकती है। यह ऐसा है जैसे विशाल जनसंख्या में, समस्या को हल करने वाले कुछ विशेषज्ञों को जल्दी से खोज लेना, और यह सब गणना की लागत को नियंत्रित करते हुए किया गया है।
प्रयोगों में, PEER आर्किटेक्चर ने उत्कृष्ट गणना प्रदर्शन प्रदर्शित किया है, जो घने FFW, मोटे MoE और उत्पाद कुंजी मेमोरी (PKM) परतों की तुलना में अधिक कुशल है। यह केवल सिद्धांत में जीत नहीं है, बल्कि वास्तविक अनुप्रयोगों में एक बड़ी छलांग है। अनुभवजन्य परिणामों के माध्यम से, हम देख सकते हैं कि PEER भाषा मॉडलिंग कार्यों में उत्कृष्ट प्रदर्शन करता है, न केवल यह कम उलझन है, बल्कि विशेषज्ञों की संख्या और सक्रिय विशेषज्ञों की संख्या को समायोजित करके, PEER मॉडल के प्रदर्शन में महत्वपूर्ण सुधार हुआ है।
इस शोध के लेखक, Xu He (Owen), Google DeepMind के शोध वैज्ञानिक हैं, उनकी इस एकल प्रयास ने बिना शक AI क्षेत्र में नई प्रेरणा प्रदान की है। जैसा कि उन्होंने प्रदर्शित किया है, व्यक्तिगत और बुद्धिमान तरीकों के माध्यम से, हम रूपांतरण दर को महत्वपूर्ण रूप से बढ़ा सकते हैं और उपयोगकर्ताओं को बनाए रख सकते हैं, जो AIGC क्षेत्र में विशेष रूप से महत्वपूर्ण है।
पेपर का पता: https://arxiv.org/abs/2407.04153