智谱 AI ने CogAgent को ओपन-सोर्स किया है, जो एक दृश्य भाषा मॉडल है, जिसमें 180 अरब पैरामीटर हैं। CogAgent GUI समझने और नेविगेशन में उत्कृष्ट प्रदर्शन करता है, और कई बेंचमार्क परीक्षणों में SOTA सामान्य प्रदर्शन प्राप्त किया है। यह मॉडल उच्च रिज़ॉल्यूशन दृश्य इनपुट और संवाद प्रश्न-उत्तर का समर्थन करता है, और किसी भी GUI स्क्रीनशॉट के लिए प्रश्न-उत्तर कर सकता है। इसके अलावा, CogAgent OCR संबंधित कार्यों का भी समर्थन करता है, और पूर्व-प्रशिक्षण और सूक्ष्म-समायोजन के माध्यम से इसकी क्षमताओं में महत्वपूर्ण सुधार हुआ है। उपयोगकर्ता स्क्रीनशॉट अपलोड करके कार्य अनुमान लगा सकते हैं, और योजना, अगली क्रिया और विशिष्ट क्रियाओं के समन्वय जानकारी प्राप्त कर सकते हैं。
CogAgent: खुला स्रोत दृश्य भाषा मॉडल जो GUI ग्राफिकल इंटरफेस प्रश्नोत्तर का समर्थन करता है

站长之家
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।