智谱AI ने CogVLM2-Video मॉडल का ओपन-सोर्स अपग्रेड की घोषणा की है, जो वीडियो समझने के क्षेत्र में महत्वपूर्ण प्रगति प्राप्त करने वाला एक मॉडल है। CogVLM2-Video ने कई फ्रेम वीडियो चित्र और टाइमस्टैम्प को एनकोडर इनपुट के रूप में पेश करके मौजूदा वीडियो समझने वाले मॉडलों की समय जानकारी खोने की समस्या का समाधान किया है। मॉडल ने स्वचालित समय स्थानिक डेटा निर्माण विधि का उपयोग करते हुए 30,000 समय-संबंधित वीडियो प्रश्न और उत्तर डेटा उत्पन्न किए, जिससे सार्वजनिक वीडियो समझने के बेंचमार्क पर नवीनतम प्रदर्शन प्राप्त किया गया। CogVLM2-Video वीडियो सबटाइटल जनरेशन और समय स्थानिकता में उत्कृष्टता प्रदर्शित करता है, जो वीडियो उत्पादन और सारांश जैसे कार्यों के लिए एक शक्तिशाली उपकरण प्रदान करता है।

CogVLM2-Video ने इनपुट वीडियो से फ्रेम निकालकर और टाइमस्टैम्प जानकारी को एनोटेट करके भाषा मॉडल को हर फ्रेम के संबंधित समय को सटीक रूप से जानने में सक्षम बनाया, जिससे समय स्थानिकता और संबंधित प्रश्न और उत्तर प्राप्त हुए।

微信截图_20240712135239.png

व्यापक प्रशिक्षण के लिए, स्वचालित वीडियो प्रश्न और उत्तर डेटा निर्माण प्रक्रिया विकसित की गई है, जो चित्र समझने वाले मॉडल और बड़े भाषा मॉडल के संयोजन का उपयोग करके लेबलिंग लागत को कम करती है और डेटा गुणवत्ता में सुधार करती है। अंततः निर्मित टेम्पोरल ग्राउंडिंग प्रश्न और उत्तर (TQA) डेटा सेट में 30,000 रिकॉर्ड शामिल हैं, जो मॉडल प्रशिक्षण के लिए समृद्ध समय स्थानिक डेटा प्रदान करता है।

कई सार्वजनिक मूल्यांकन सेटों पर, CogVLM2-Video ने उत्कृष्ट प्रदर्शन प्रदर्शित किया है, जिसमें VideoChatGPT-Bench, Zero-shot QA और MVBench जैसे मात्रात्मक मूल्यांकन संकेतकों पर शानदार प्रदर्शन शामिल है।

कोड:https://github.com/THUDM/CogVLM2

प्रोजेक्ट वेबसाइट:https://cogvlm2-video.github.io

ऑनलाइन परीक्षण:http://36.103.203.44:7868/