कुनलुन वानवेई, बीजिंग ज़ीचुआन आर्टिफिशियल इंटेलिजेंस रिसर्च इंस्टीट्यूट, सिंगापुर नानयांग टेक्नोलॉजिकल यूनिवर्सिटी, बीजिंग विश्वविद्यालय और अन्य संस्थानों के साथ मिलकर "Cradle" नामक एक सामान्य कंप्यूटर नियंत्रण ढांचा जारी किया है। यह एआई ढांचा स्मार्ट एजेंट (AI Agent) को विशेष प्रशिक्षण की आवश्यकता के बिना सीधे मनुष्य की तरह कीबोर्ड और माउस को नियंत्रित करने, किसी भी ओपन-सोर्स या क्लोज्ड-सोर्स सॉफ़्टवेयर के साथ बातचीत करने की अनुमति देता है, बिना किसी आंतरिक API पर निर्भर किए। Cradle पहला एआई ढांचा है जो कई व्यावसायिक खेलों को खेलने और विभिन्न सॉफ़्टवेयर अनुप्रयोगों को संचालित करने में सक्षम है, और इसकी पेपर, परियोजना और कोड सभी ओपन-सोर्स हैं।

Cradle ने कई खेलों में उत्कृष्ट क्षमताओं का प्रदर्शन किया है, जिसमें "रेड डेड रिडेम्पशन 2" में 40 मिनट का मुख्य कार्य पूरा करना, "स्टारड्यू वैली" में खेत की सफाई और खरीदारी करना, "सिटी स्काईलाइन्स" में एक हजार लोगों का शहर बनाना, "लूटर्स लाइफ 2" में ग्राहकों के साथ मोलभाव करना, और Chrome, Outlook, Feishu जैसे दैनिक सॉफ़्टवेयर में आवेदन की क्षमता शामिल है। यह छवि संपादन, वीडियो संपादन जैसे कार्य भी कर सकता है, जिससे यह एक बहुपरकारी AI एजेंट बन जाता है।

微信截图_20240704142116.png

Cradle में सूचना संग्रह, आत्म-चिंतन, कार्य अनुमान, कौशल प्रबंधन, क्रियान्वयन योजना और स्मृति मॉड्यूल के छह भाग शामिल हैं, जो उचित रूप से कच्चे इनपुट-आउटपुट को संकुचित और अमूर्त करके कंप्यूटर के साथ बातचीत को सक्षम बनाते हैं। यह स्क्रीन पर प्रदर्शित वीडियो छवियों को इनपुट के रूप में उपयोग करता है, पाठ और दृश्य जानकारी को निर्णय लेने के लिए निकालता है, और कीबोर्ड और माउस को नियंत्रित करने के लिए संकेत आउटपुट करता है। Cradle का निर्णय-निर्माण मॉड्यूल स्वाभाविक रूप से सॉफ़्टवेयर के साथ बातचीत कर सकता है और कार्य पूरा कर सकता है, पिछले अनुभवों पर विचार करके, वर्तमान का सारांश निकालकर और भविष्य की योजना बनाकर कार्य करता है।

इसके अलावा, Cradle का खेलों और सॉफ़्टवेयर अनुप्रयोगों में प्रदर्शन इसकी सामान्यता को साबित करता है, यह विभिन्न शैलियों और संचालन विधियों के खेलों में जटिल कार्यों को पूरा कर सकता है, और सामान्य उपयोग के सॉफ़्टवेयर में विभिन्न कार्यों को निष्पादित कर सकता है, जैसे कि शोध पत्र डाउनलोड करना, ईमेल भेजना, छवि संपादित करना, वीडियो संपादित करना आदि। Cradle ने चुनौतीपूर्ण बेंचमार्क OSWorld पर सत्य मान लेबल का उपयोग करने वाले आधारभूत विधियों को भी हराया।

Cradle का विमोचन सामान्य कंप्यूटर नियंत्रण बुद्धिमान एजेंट (GCC Agents) के निर्माण के लिए नई संभावनाएँ प्रदान करता है, एकीकृत इनपुट-आउटपुट इंटरफेस के विकास को बढ़ावा देता है, और भविष्य में विभिन्न वातावरणों में एजेंटों के बीच बातचीत और आत्म-उन्नति के लिए एक आधार तैयार करता है, सामान्य आर्टिफिशियल इंटेलिजेंस (AGI) की दिशा में एक महत्वपूर्ण कदम उठाता है।

परियोजना होमपेज:https://baai-agents.github.io/Cradle

कोड लिंक:https://github.com/BAAI-Agents/Cradle