आर्टिफिशियल इंटेलिजेंस तकनीक के विकास के साथ, मल्टी-एजेंट सिस्टम विभिन्न क्षेत्रों में जटिल कार्यों को संभालने की क्षमता में लगातार सुधार कर रहे हैं। ये सिस्टम कई विशेषीकृत एजेंटों से मिलकर बने होते हैं, जो सहयोग के माध्यम से अपनी विशेषताओं का उपयोग करके सामूहिक रूप से लक्ष्यों को प्राप्त करते हैं। इस प्रकार का सहयोग जटिल तर्क, प्रोग्रामिंग, दवा खोज और सुरक्षा सुनिश्चित करने जैसे क्षेत्रों में उत्कृष्टता दिखाता है, क्योंकि एजेंटों के बीच संरचित बातचीत न केवल समस्याओं को हल करने की दक्षता को बढ़ाती है, बल्कि एक-दूसरे को सुधारने में भी मदद करती है, जिससे उनके आउटपुट में सुधार होता है। अनुसंधान से पता चला है कि इस प्रकार का सहयोग उन कार्यों में अक्सर एकल एजेंट के प्रदर्शन से बेहतर होता है जिनमें सख्त तर्क या तथ्यों की पुष्टि की आवश्यकता होती है।
हालांकि, मल्टी-एजेंट सिस्टम का अनुकूलन अभी भी महत्वपूर्ण चुनौतियों का सामना कर रहा है। एक मुख्य समस्या यह है कि प्रत्येक एजेंट के लिए उचित प्रशिक्षण संकेत कैसे प्राप्त किया जाए। हालांकि कार्य स्तर पर पुरस्कार फीडबैक प्राप्त किया जा सकता है, लेकिन विभिन्न एजेंटों के बीच क्रेडिट आवंटन कैसे किया जाए यह स्पष्ट नहीं है। चूंकि भाषा मॉडल का तर्क प्रक्रिया जटिल और असंरचित होती है, इसलिए प्रत्येक एजेंट के विशिष्ट निर्णय और तर्क कदमों के लिए सफलता या विफलता को जिम्मेदार ठहराना और भी कठिन हो जाता है, जो सुदृढीकरण सीखने में मल्टी-एजेंट क्रेडिट आवंटन समस्या के समान है।
इस समस्या को हल करने के लिए, स्टैनफोर्ड विश्वविद्यालय के शोधकर्ताओं ने SIRIUS ढांचे का परिचय दिया, जो एक आत्म-सुधार करने वाला मल्टी-एजेंट अनुकूलन ढांचा है, जो तर्क-प्रेरित सीखने का उपयोग करता है। SIRIUS सफल तर्क पथों को बनाए रखकर एक अनुभव भंडार का निर्माण करता है, जो उच्च गुणवत्ता वाले प्रशिक्षण सेट प्रदान करता है। साथ ही, असफल प्रयासों को बढ़ाने के लिए डेटा सेट को समृद्ध करता है। अनुसंधान के परिणाम बताते हैं कि SIRIUS ने तर्क और बायोमेडिकल प्रश्नोत्तर में 2.86% से 21.88% तक सुधार किया है, और प्रतिस्पर्धी वातावरण में एजेंटों की बातचीत की क्षमता में सुधार किया है। एजेंट सफल इंटरैक्शन से सीखकर सहयोगी रणनीतियों में सुधार करते हैं, जिससे बिना सीधे पर्यवेक्षण के आत्म-ऑप्टिमाइजेशन प्राप्त होता है।
SIRIUS ढांचे में एक पुनरावृत्त माइक्रो-ट्यूनिंग प्रक्रिया भी शामिल है, जिसमें एजेंट एक प्राकृतिक भाषा वातावरण में बातचीत करते हैं, प्रतिक्रियाएँ उत्पन्न करते हैं, प्रतिक्रियाओं का मूल्यांकन करते हैं, निम्न गुणवत्ता वाले आउटपुट में सुधार करते हैं, और पर्यवेक्षण सीखने के माध्यम से रणनीतियों को अपडेट करते हैं। निरंतर प्रतिक्रिया अनुकूलन के माध्यम से, SIRIUS भाषा आधारित मल्टी-एजेंट सिस्टम में तर्क और निर्णय लेने की क्षमता को बढ़ाता है, और समय के साथ अधिक प्रभावी और संगत इंटरैक्शन प्राप्त करता है।
प्रयोगों में, SIRIUS ने कई बुनियादी मॉडलों के साथ तुलना की, जिसमें एकल एजेंट, STaR, CoMM और TextGrad शामिल हैं। परिणाम बताते हैं कि SIRIUS समस्या समाधान, कार्य विभाजन और एजेंट सहयोग में उत्कृष्ट प्रदर्शन करता है। एबलेशन अध्ययन से पता चला कि विशेषीकृत एजेंट भूमिकाएँ, मल्टी-एजेंट अनुकूलन और अनुभव वृद्धि प्रदर्शन को बढ़ाने के लिए महत्वपूर्ण कारक हैं। SIRIUS अभिनेता-आलोचक और प्रतिस्पर्धी वातावरण में भी उत्कृष्टता प्रदर्शित करता है, PubMedQA और संसाधन विनिमय खेल जैसे कार्यों में अन्य तरीकों से बेहतर प्रदर्शन करता है।
इस प्रकार, SIRIUS एक ऐसा ढांचा है जिसका उद्देश्य सफल इंटरैक्शन को सीखने और विफल मामलों में सुधार करके मल्टी-एजेंट सिस्टम का अनुकूलन करना है। यह उच्च गुणवत्ता वाले तर्क कदमों वाले अनुभव भंडार का निर्माण करता है, जो सिस्टम अनुकूलन के लिए प्रशिक्षण सेट के रूप में कार्य करता है, जबकि असफल पथों को समृद्ध करके भंडार की सामग्री को समृद्ध करता है। यह ढांचा तर्क, बायोमेडिकल प्रश्नोत्तर और एजेंट बातचीत की क्षमता को महत्वपूर्ण रूप से बढ़ाता है, और मल्टी-एजेंट सहयोग में निरंतर आत्म-सुधार को बढ़ावा देता है।
पेपर: https://arxiv.org/pdf/2502.04780
मुख्य बिंदु:
🌟 SIRIUS ढांचा आत्म-सुधार और सफल अनुभव सीखने के माध्यम से मल्टी-एजेंट सिस्टम के प्रदर्शन को अनुकूलित करता है।
📈 अनुसंधान से पता चलता है कि SIRIUS तर्क और बायोमेडिकल प्रश्नोत्तर जैसे कार्यों में 2.86% से 21.88% तक प्रदर्शन में सुधार करता है।
🤝 मल्टी-एजेंटों के बीच इंटरैक्शन और अनुभव भंडार का निर्माण SIRIUS अनुकूलन प्रक्रिया का核心 है, जो एजेंटों को जटिल कार्यों में अधिक प्रभावी ढंग से सहयोग करने में मदद करता है।