शैक्षणिक अनुसंधान के क्षेत्र में, साहित्य खोज एक जटिल और महत्वपूर्ण जानकारी प्राप्त करने का कार्य है। शोधकर्ताओं को जटिल और विशेषज्ञता वाले क्षेत्रों की खोज क्षमताओं को संभालने में सक्षम होना चाहिए, ताकि वे विस्तृत अनुसंधान आवश्यकताओं को पूरा कर सकें। हालांकि, मौजूदा शैक्षणिक खोज प्लेटफार्मों, जैसे कि गूगल स्कॉलर, अक्सर इन जटिल अनुसंधान प्रश्नों का सामना करने में असमर्थ होते हैं। उदाहरण के लिए, UCB विधि का उपयोग करते हुए अस्थिर सुदृढीकरण सीखने के विशेषज्ञ प्रश्नों के लिए अधिक शक्तिशाली गणना और विश्लेषण क्षमता की आवश्यकता होती है। इसके अलावा, शोधकर्ता साहित्य समीक्षा करते समय अक्सर विशाल शैक्षणिक डेटाबेस को मैन्युअल रूप से ब्राउज़ करने में बहुत समय और ऊर्जा खर्च करते हैं।
हालांकि कई शोधों ने शैक्षणिक पत्रों की खोज और वैज्ञानिक खोज में बड़े भाषा मॉडल (LLMs) के उपयोग की जांच की है, पारंपरिक खोज उपकरण अभी भी जटिल पेशेवर अनुसंधान आवश्यकताओं को पूरा करने में कठिनाई का सामना कर रहे हैं। कई अध्ययन LLM एजेंटों को विकसित करने के लिए अनुकूलन ढांचे और प्रॉम्प्ट इंजीनियरिंग तकनीकों पर केंद्रित हैं, जबकि AGILE RL ढांचे जैसी विधियों ने एजेंट की समग्र क्षमताओं को काफी बढ़ा दिया है, फिर भी एक स्वायत्त और सटीक शैक्षणिक पत्र खोज समाधान खोजने में असफल रहे हैं, जो शोध में एक बड़ा अंतर छोड़ता है।
हाल ही में, बाइटडांस अनुसंधान संस्थान और पेकिंग विश्वविद्यालय के शोधकर्ताओं ने मिलकर PaSa प्रस्तुत किया, जो एक नवोन्मेषी LLM आधारित पत्र खोज एजेंट है। PaSa जटिल खोज रणनीतियों को स्वायत्त रूप से निष्पादित कर सकता है, जिसमें उपकरण कॉल, पत्र पढ़ना और संदर्भ चयन शामिल है, जिसका उद्देश्य जटिल शैक्षणिक प्रश्नों के लिए व्यापक और सटीक परिणाम उत्पन्न करना है। PaSa के प्रदर्शन को अनुकूलित करने के लिए, शोध टीम ने AutoScholarQuery बनाया, जिसमें 35,000 बारीक शैक्षणिक प्रश्नों का एक संश्लेषण डेटा सेट है, और एजेंट के वास्तविक प्रदर्शन का मूल्यांकन करने के लिए RealScholarQuery स्थापित किया। यह प्रणाली सुदृढीकरण सीखने की तकनीक का उपयोग करके खोज क्षमताओं को बढ़ाती है, मौजूदा शैक्षणिक खोज विधियों में प्रमुख सीमाओं को हल करती है।
PaSa प्रणाली में दो LLM एजेंट होते हैं: क्रॉलर (Crawler) और चयनकर्ता (Selector), जो मिलकर व्यापक शैक्षणिक पत्र खोज को निष्पादित करते हैं। क्रॉलर पहले उपयोगकर्ता के प्रश्न का विश्लेषण करता है, ताकि संबंधित पत्रों को प्राप्त करने के लिए कई बारीक खोज प्रश्न उत्पन्न किए जा सकें, और इन पत्रों को विशेष पत्र कतार में जोड़ता है। क्रॉलर प्रत्येक कतारबद्ध पत्र को संसाधित करेगा, महत्वपूर्ण संदर्भों की पहचान करेगा और खोज क्षेत्र का विस्तार करने के लिए संभावित खोजों का पता लगाएगा, और गतिशील रूप से नए पाए गए संबंधित पत्रों को सूची में जोड़ेगा। फिर, चयनकर्ता प्रत्येक पत्र का मूल्यांकन करेगा कि क्या यह मूल प्रश्न की आवश्यकताओं को पूरा करता है।
प्रयोगात्मक परिणाम दिखाते हैं कि PaSa-7b कई मानक परीक्षणों में उत्कृष्ट प्रदर्शन करता है। AutoScholarQuery परीक्षण सेट पर, PaSa-7b ने PaSa-GPT-4o की तुलना में 9.64% की पुनः प्राप्ति दर में सुधार किया। जबकि गूगल आधारित मानक के सामने, PaSa-7b की पुनः प्राप्ति दर में 33.80% से 42.64% के बीच वृद्धि हुई। अधिक चुनौतीपूर्ण RealScholarQuery परिदृश्य में, PaSa-7b ने 30.36% की पुनः प्राप्ति दर में वृद्धि और 4.25% की सटीकता में वृद्धि प्रदर्शित की।
कुल मिलाकर, PaSa का शुभारंभ शैक्षणिक पत्र खोज तकनीक में एक महत्वपूर्ण प्रगति का प्रतीक है, जो शैक्षणिक अनुसंधान के लिए जानकारी खोजने का एक प्रभावी समाधान प्रदान करता है। बड़े भाषा मॉडल और सुदृढीकरण सीखने की तकनीक को जोड़कर, PaSa शोधकर्ताओं द्वारा साहित्य समीक्षा में खर्च किए गए समय और ऊर्जा को काफी कम कर देता है, साथ ही उन्हें बढ़ते और जटिल शैक्षणिक साहित्य वातावरण का सामना करने के लिए एक कुशल उपकरण प्रदान करता है।
कोड: https://github.com/bytedance/pasa
पत्र: https://arxiv.org/abs/2501.10120
मुख्य बिंदु:
📄 **PaSa बाइटडांस और पेकिंग विश्वविद्यालय के शोधकर्ताओं द्वारा संयुक्त रूप से प्रस्तुत एक स्मार्ट शैक्षणिक पत्र खोज एजेंट है।**
🤖 ** यह प्रणाली क्रॉलर और चयनकर्ता के दो LLM एजेंटों से मिलकर बनी है, जो जटिल खोज रणनीतियों को स्वायत्त रूप से निष्पादित कर सकती है।**
🏆 ** प्रयोगात्मक परिणाम बताते हैं कि PaSa-7b कई मानक परीक्षणों में मौजूदा खोज विधियों की तुलना में बेहतर प्रदर्शन करता है, पत्र खोजने की दक्षता और सटीकता को महत्वपूर्ण रूप से बढ़ाता है।**