हाल ही में, अलीबाबा ने DS Assistant नामक एक AI डेटा विज्ञान सहायक लॉन्च किया है, जो डेटा अन्वेषण से लेकर मॉडल मूल्यांकन तक की पूरी प्रक्रिया को स्वचालित रूप से पूरा कर सकता है, जिससे डेटा विज्ञान का काम अधिक सरल और कुशल हो गया है।

DS Assistant Modelscope-Agent ढांचे पर विकसित किया गया है, जो अलीबाबा द्वारा ओपन-सोर्स किया गया है, जिसमें समृद्ध उपकरण पारिस्थितिकी और लचीला मॉड्यूल डिज़ाइन है। DS Assistant का लॉन्च यह दर्शाता है कि यहां तक कि जिन उपयोगकर्ताओं के पास गहरा डेटा विज्ञान पृष्ठभूमि नहीं है, वे भी जटिल डेटा विज्ञान समस्याओं को आसानी से संभाल सकते हैं।

image.png

DS Assistant का मुख्य लाभ इसकी स्वचालित कार्यप्रवाह में है। उपयोगकर्ताओं को केवल आवश्यकता प्रदान करनी होती है, DS Assistant स्वचालित रूप से अन्वेषणात्मक डेटा विश्लेषण, डेटा पूर्व-प्रसंस्करण, विशेषता इंजीनियरिंग, मॉडल प्रशिक्षण और मूल्यांकन जैसे चरणों को निष्पादित कर सकता है। यह प्रक्रिया न केवल कार्यक्षमता को बढ़ाती है, बल्कि डेटा विज्ञान के काम को करने की बाधा को भी कम करती है।

Modelscope-Agent ढांचा DS Assistant के पीछे की मजबूत आधारशिला है, इसके पास निम्नलिखित विशेषताएँ हैं:

प्रमुख ओपन-सोर्स मॉडलों जैसे vllm, ollama आदि के साथ कनेक्ट करने का समर्थन;

ज्ञानभंडार के लिए त्वरित कनेक्शन के लिए RAG घटक प्रदान करता है;

समृद्ध उपकरण पारिस्थितिकी, Modelscope समुदाय के मॉडल और langchain उपकरणों का समर्थन करता है।

DS Assistant ने एक उभरते हुए योजना-और-निष्पादन ढांचे को अपनाया है, जो स्पष्ट योजना और निष्पादन चरणों के माध्यम से जटिल कार्यों को कुशलता से पूरा करता है। इसका कार्यप्रवाह कार्य योजना, उप-कार्य शेड्यूलिंग, कार्य निष्पादन और परिणाम एकीकरण शामिल करता है, जो कार्य निष्पादन की दक्षता और नियंत्रण को काफी बढ़ाता है।

प्रणाली आर्किटेक्चर के संदर्भ में, DS Assistant चार मुख्य मॉड्यूल से मिलकर बना है: DS Assistant स्वयं प्रणाली का मस्तिष्क है, जो समग्र शेड्यूलिंग के लिए जिम्मेदार है; योजना मॉड्यूल कार्य सूची उत्पन्न करने और टोपोलॉजिकल क्रम में रखने के लिए जिम्मेदार है; निष्पादन मॉड्यूल विशिष्ट निष्पादन और परिणामों को सहेजने के लिए जिम्मेदार है; मेमोरी प्रबंधन मॉड्यूल कार्य के बीच निष्पादन परिणामों को रिकॉर्ड करता है।

व्यावहारिक मामलों में, DS Assistant ने Kaggle पर ICR - आयु-संबंधित स्थितियों की पहचान प्रतियोगिता कार्य में सफलतापूर्वक आवेदन किया। स्वचालित डेटा प्रसंस्करण और विश्लेषण प्रक्रिया के माध्यम से, DS Assistant ने न केवल कार्य निष्पादन की सफलता दर को बढ़ाया, बल्कि उपयोगकर्ताओं के लिए विस्तृत प्रसंस्करण प्रक्रिया रिकॉर्ड भी उत्पन्न किया।

DS Assistant का प्रभाव ML-बेंचमार्क के माध्यम से मूल्यांकन किया गया, और सामान्यीकृत प्रदर्शन स्कोर (NPS), कुल समय और कुल टोकन संख्या के तीन आयामों से देखा जाए तो, DS Assistant ने कुछ जटिल डेटा विज्ञान कार्यों पर ओपन-सोर्स SOTA से बेहतर परिणाम प्राप्त किए हैं।

DS Assistant के आवेदन का मूल्य है:

डेटा विश्लेषण प्रक्रिया से अनजान उपयोगकर्ताओं के लिए, DS Assistant डेटा प्रसंस्करण के विचारों और तकनीकी बिंदुओं को जल्दी समझने का एक रास्ता प्रदान करता है;

जो उपयोगकर्ता डेटा विश्लेषण प्रक्रिया को समझते हैं, उनके लिए DS Assistant विस्तृत प्रसंस्करण विधियों का वर्णन प्रदान करता है, जिससे प्रयोगों की तुलना करना आसान हो जाता है;

सभी के लिए, DS Assistant स्वचालित रूप से वर्तमान फ़ाइल की गहरी समझ को तेजी से प्राप्त कर सकता है।

भविष्य में, DS Assistant कार्य निष्पादन की सफलता दर बढ़ाने, संवादात्मक कार्यों को बढ़ावा देने का समर्थन करने और समान कार्यों के लिए बैच प्रसंस्करण का समर्थन करने के तीन दिशाओं में अनुकूलित होगा, ताकि उपयोगकर्ता अनुभव को और बढ़ाया जा सके।

अलीबाबा का यह नवोन्मेषी उपकरण न केवल डेटा विज्ञान क्षेत्र में प्रवेश की बाधाओं को कम करता है, बल्कि डेटा वैज्ञानिकों को एक मजबूत स्वचालित सहायक भी प्रदान करता है, जो डेटा विज्ञान क्षेत्र में एक नई क्रांति का संकेत देता है।

आधिकारिक भंडार: https://github.com/modelscope/modelscope-agent/blob/master/examples/agents/data_science_assistant.ipynb

संदर्भ सामग्री: https://blog.langchain.dev/planning-agents/