智谱AI के GLM-PC बेस मॉडल CogAgent-9B अब ओपन-सोर्स हो गया है, जिससे बड़े मॉडल एजेंट पारिस्थितिकी तंत्र के विकास को बढ़ावा मिलेगा। CogAgent-9B एक विशेष एजेंट कार्य मॉडल है जो GLM-4V-9B पर प्रशिक्षित किया गया है, और यह स्क्रीनशॉट को इनपुट के रूप में लेकर, उपयोगकर्ता द्वारा निर्दिष्ट किसी भी कार्य के आधार पर, ऐतिहासिक संचालन के संयोजन के साथ, अगले GUI संचालन की भविष्यवाणी कर सकता है। इस मॉडल की व्यापकता इसे व्यक्तिगत कंप्यूटर, मोबाइल फोन, कार मशीन उपकरणों और अन्य GUI इंटरैक्शन आधारित परिदृश्यों में व्यापक रूप से उपयोग करने की अनुमति देती है।

微信截图_20241227091131.png

2023 के दिसंबर में ओपन-सोर्स किए गए पहले संस्करण CogAgent मॉडल की तुलना में, CogAgent-9B-20241220 GUI पहचान, अनुमान भविष्यवाणी सटीकता, क्रियाकलाप स्थान की पूर्णता, कार्य की सार्वभौमिकता और सामान्यीकरण जैसे पहलुओं में महत्वपूर्ण सुधार दिखाता है, और यह चीनी और अंग्रेजी दोनों भाषाओं के स्क्रीनशॉट और भाषा इंटरैक्शन का समर्थन करता है। CogAgent का इनपुट केवल उपयोगकर्ता के प्राकृतिक भाषा निर्देश, पूर्व-निष्पादित ऐतिहासिक क्रियाओं का रिकॉर्ड और GUI स्क्रीनशॉट शामिल करता है, किसी भी पाठ रूप में प्रतिनिधित्व की गई लेआउट जानकारी या अतिरिक्त तत्व टैग जानकारी की आवश्यकता नहीं होती है। आउटपुट में विचार प्रक्रिया, अगले क्रियाकलाप का प्राकृतिक भाषा विवरण, अगले क्रियाकलाप का संरचित विवरण और अगले क्रियाकलाप की संवेदनशीलता का मूल्यांकन शामिल होता है।

प्रदर्शन परीक्षण में, CogAgent-9B-20241220 ने कई डेटा सेटों पर अग्रणी परिणाम प्राप्त किए हैं, जो GUI स्थान निर्धारण, एकल चरण संचालन, चीनी स्टेप-वाइज सूची और बहु-चरण संचालन में इसकी ताकत को प्रदर्शित करता है। Zhipu Technology की यह पहल न केवल बड़े मॉडल तकनीक के विकास को बढ़ावा देती है, बल्कि दृष्टिहीन IT पेशेवरों को नए उपकरणों और संभावनाओं के साथ भी प्रदान करती है।

कोड:

https://github.com/THUDM/CogAgent

मॉडल:

Huggingface: https://huggingface.co/THUDM/cogagent-9b-20241220

मॉडल समुदाय: https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220