智谱 AI ने CogAgent को ओपन-सोर्स किया है, जो एक दृश्य भाषा मॉडल है, जिसमें 180 अरब पैरामीटर हैं। CogAgent GUI समझने और नेविगेशन में उत्कृष्ट प्रदर्शन करता है, और कई बेंचमार्क परीक्षणों में SOTA सामान्य प्रदर्शन प्राप्त किया है। यह मॉडल उच्च रिज़ॉल्यूशन दृश्य इनपुट और संवाद प्रश्न-उत्तर का समर्थन करता है, और किसी भी GUI स्क्रीनशॉट के लिए प्रश्न-उत्तर कर सकता है। इसके अलावा, CogAgent OCR संबंधित कार्यों का भी समर्थन करता है, और पूर्व-प्रशिक्षण और सूक्ष्म-समायोजन के माध्यम से इसकी क्षमताओं में महत्वपूर्ण सुधार हुआ है। उपयोगकर्ता स्क्रीनशॉट अपलोड करके कार्य अनुमान लगा सकते हैं, और योजना, अगली क्रिया और विशिष्ट क्रियाओं के समन्वय जानकारी प्राप्त कर सकते हैं。
CogAgent: खुला स्रोत दृश्य भाषा मॉडल जो GUI ग्राफिकल इंटरफेस प्रश्नोत्तर का समर्थन करता है
