智谱AI के GLM-PC बेस मॉडल CogAgent-9B अब ओपन-सोर्स हो गया है, जिससे बड़े मॉडल एजेंट पारिस्थितिकी तंत्र के विकास को बढ़ावा मिलेगा। CogAgent-9B एक विशेष एजेंट कार्य मॉडल है जो GLM-4V-9B पर प्रशिक्षित किया गया है, और यह स्क्रीनशॉट को इनपुट के रूप में लेकर, उपयोगकर्ता द्वारा निर्दिष्ट किसी भी कार्य के आधार पर, ऐतिहासिक संचालन के संयोजन के साथ, अगले GUI संचालन की भविष्यवाणी कर सकता है। इस मॉडल की व्यापकता इसे व्यक्तिगत कंप्यूटर, मोबाइल फोन, कार मशीन उपकरणों और अन्य GUI इंटरैक्शन आधारित परिदृश्यों में व्यापक रूप से उपयोग करने की अनुमति देती है।
2023 के दिसंबर में ओपन-सोर्स किए गए पहले संस्करण CogAgent मॉडल की तुलना में, CogAgent-9B-20241220 GUI पहचान, अनुमान भविष्यवाणी सटीकता, क्रियाकलाप स्थान की पूर्णता, कार्य की सार्वभौमिकता और सामान्यीकरण जैसे पहलुओं में महत्वपूर्ण सुधार दिखाता है, और यह चीनी और अंग्रेजी दोनों भाषाओं के स्क्रीनशॉट और भाषा इंटरैक्शन का समर्थन करता है। CogAgent का इनपुट केवल उपयोगकर्ता के प्राकृतिक भाषा निर्देश, पूर्व-निष्पादित ऐतिहासिक क्रियाओं का रिकॉर्ड और GUI स्क्रीनशॉट शामिल करता है, किसी भी पाठ रूप में प्रतिनिधित्व की गई लेआउट जानकारी या अतिरिक्त तत्व टैग जानकारी की आवश्यकता नहीं होती है। आउटपुट में विचार प्रक्रिया, अगले क्रियाकलाप का प्राकृतिक भाषा विवरण, अगले क्रियाकलाप का संरचित विवरण और अगले क्रियाकलाप की संवेदनशीलता का मूल्यांकन शामिल होता है।
प्रदर्शन परीक्षण में, CogAgent-9B-20241220 ने कई डेटा सेटों पर अग्रणी परिणाम प्राप्त किए हैं, जो GUI स्थान निर्धारण, एकल चरण संचालन, चीनी स्टेप-वाइज सूची और बहु-चरण संचालन में इसकी ताकत को प्रदर्शित करता है। Zhipu Technology की यह पहल न केवल बड़े मॉडल तकनीक के विकास को बढ़ावा देती है, बल्कि दृष्टिहीन IT पेशेवरों को नए उपकरणों और संभावनाओं के साथ भी प्रदान करती है।
कोड:
https://github.com/THUDM/CogAgent
मॉडल:
Huggingface: https://huggingface.co/THUDM/cogagent-9b-20241220
मॉडल समुदाय: https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220