हाल ही में, एक नई शोध ने उत्साहजनक परिणाम दिखाए हैं, जो प्रमाणित करता है कि बड़े भाषा मॉडल (LLM) खोज कार्यक्षमता के माध्यम से प्रदर्शन को महत्वपूर्ण रूप से बढ़ा सकते हैं। विशेष रूप से, केवल 8 बिलियन पैरामीटर वाला Llama3.1 मॉडल ने 100 खोजों के बाद Python कोड जनरेशन कार्य में GPT-4o के समान प्रदर्शन किया।
यह विचार 2019 में रिच सटन द्वारा लिखे गए क्लासिक ब्लॉग "The Bitter Lesson" की याद दिलाता है। उन्होंने उल्लेख किया कि जैसे-जैसे कंप्यूटिंग शक्ति में वृद्धि होती है, हमें सामान्य विधियों की ताकत को पहचानना चाहिए। विशेष रूप से "खोज" और "सीखना" जैसी विधियाँ, निरंतर विस्तार के लिए उत्कृष्ट विकल्प प्रतीत होती हैं।
हालांकि सटन ने सीखने के महत्व पर जोर दिया, अर्थात् बड़े मॉडल आमतौर पर अधिक ज्ञान सीखते हैं, लेकिन हम अक्सर तर्क प्रक्रिया में खोज की क्षमता की अनदेखी करते हैं। हाल ही में, स्टैनफोर्ड, ऑक्सफोर्ड और DeepMind के शोधकर्ताओं ने पाया कि तर्क चरण में पुनरावृत्ति नमूनों की संख्या बढ़ाने से मॉडल के गणित, तर्क और कोड जनरेशन जैसे क्षेत्रों में प्रदर्शन में महत्वपूर्ण सुधार हो सकता है।
इन शोधों से प्रेरित होकर, दो इंजीनियरों ने प्रयोग करने का निर्णय लिया। उन्होंने पाया कि 100 छोटे Llama मॉडल का उपयोग करके खोज करने से Python प्रोग्रामिंग कार्य में GPT-4o को पार किया जा सकता है। उन्होंने इसे एक जीवंत उपमा के रूप में वर्णित किया: "पहले किसी विशेष क्षमता को प्राप्त करने के लिए एक बड़े घोड़े की आवश्यकता होती थी, अब केवल 100 छोटे बत्तखें वही काम कर सकती हैं।"
उच्च प्रदर्शन हासिल करने के लिए, उन्होंने vLLM पुस्तकालय का उपयोग करके बैच तर्क किया और 10 A100-40GB GPU पर चलाया, जिससे आउटपुट गति 40k टोकन/सेकंड तक पहुँच गई। लेखक ने HumanEval बेंचमार्क परीक्षण को चुना, क्योंकि यह परीक्षण चलाकर उत्पन्न कोड का अधिक वस्तुनिष्ठ और सटीक मूल्यांकन कर सकता है।
रिपोर्ट के अनुसार, शून्य नमूना तर्क में, GPT-4o का pass@1 स्कोर 90.2% था। जबकि उपरोक्त विधि के माध्यम से, Llama3.18B का pass@k स्कोर भी महत्वपूर्ण रूप से बढ़ा। जब पुनरावृत्ति नमूनों की संख्या 100 थी, Llama का स्कोर 90.5% था; जब पुनरावृत्ति नमूनों की संख्या 1000 तक बढ़ी, तो स्कोर और भी बढ़कर 95.1% हो गया, जो स्पष्ट रूप से GPT-4o से बेहतर था।
यह उल्लेखनीय है कि यह प्रयोग मूल शोध की सख्त पुनरुत्पादन नहीं है, लेकिन यह खोज विधियों का उपयोग करके तर्क चरण को बढ़ाने के दौरान छोटे मॉडल द्वारा बड़े मॉडल को पार करने की संभावना पर जोर देता है।
खोज इसीलिए शक्तिशाली है क्योंकि यह कंप्यूटिंग मात्रा के साथ "पारदर्शी" रूप से विस्तारित हो सकती है, और संसाधनों को मेमोरी से कंप्यूटिंग में स्थानांतरित करके संसाधनों का संतुलन बनाए रख सकती है। हाल ही में, DeepMind ने गणित के क्षेत्र में महत्वपूर्ण प्रगति की है, जो खोज की शक्ति को प्रमाणित करती है।
हालांकि, खोज की सफलता के लिए पहले परिणामों का उच्च गुणवत्ता मूल्यांकन आवश्यक है। DeepMind के मॉडल ने प्राकृतिक भाषा में व्यक्त गणितीय समस्याओं को औपचारिक रूप में परिवर्तित करके प्रभावी निगरानी प्राप्त की। जबकि अन्य क्षेत्रों में, जैसे "ईमेल का सारांश" जैसी खुली NLP कार्यों में, प्रभावी खोज करना बहुत अधिक चुनौतीपूर्ण होता है।
यह शोध दर्शाता है कि विशिष्ट क्षेत्रों में जनरेटिव मॉडल के प्रदर्शन में वृद्धि उनके मूल्यांकन और खोज क्षमता से संबंधित है, भविष्य के शोध यह अन्वेषण कर सकते हैं कि इन क्षमताओं को कैसे पुनरुत्पादित डिजिटल वातावरण के माध्यम से बढ़ाया जा सकता है।
पेपर का पता: https://arxiv.org/pdf/2407.21787