智谱AI ने CogVLM2-Video मॉडल का ओपन-सोर्स अपग्रेड की घोषणा की है, जो वीडियो समझने के क्षेत्र में महत्वपूर्ण प्रगति प्राप्त करने वाला एक मॉडल है। CogVLM2-Video ने कई फ्रेम वीडियो चित्र और टाइमस्टैम्प को एनकोडर इनपुट के रूप में पेश करके मौजूदा वीडियो समझने वाले मॉडलों की समय जानकारी खोने की समस्या का समाधान किया है। मॉडल ने स्वचालित समय स्थानिक डेटा निर्माण विधि का उपयोग करते हुए 30,000 समय-संबंधित वीडियो प्रश्न और उत्तर डेटा उत्पन्न किए, जिससे सार्वजनिक वीडियो समझने के बेंचमार्क पर नवीनतम प्रदर्शन प्राप्त किया गया। CogVLM2-Video वीडियो सबटाइटल जनरेशन और समय स्थानिकता में उत्कृष्टता प्रदर्शित करता है, जो वीडियो उत्पादन और सारांश जैसे कार्यों के लिए एक शक्तिशाली उपकरण प्रदान करता है।
CogVLM2-Video ने इनपुट वीडियो से फ्रेम निकालकर और टाइमस्टैम्प जानकारी को एनोटेट करके भाषा मॉडल को हर फ्रेम के संबंधित समय को सटीक रूप से जानने में सक्षम बनाया, जिससे समय स्थानिकता और संबंधित प्रश्न और उत्तर प्राप्त हुए।
व्यापक प्रशिक्षण के लिए, स्वचालित वीडियो प्रश्न और उत्तर डेटा निर्माण प्रक्रिया विकसित की गई है, जो चित्र समझने वाले मॉडल और बड़े भाषा मॉडल के संयोजन का उपयोग करके लेबलिंग लागत को कम करती है और डेटा गुणवत्ता में सुधार करती है। अंततः निर्मित टेम्पोरल ग्राउंडिंग प्रश्न और उत्तर (TQA) डेटा सेट में 30,000 रिकॉर्ड शामिल हैं, जो मॉडल प्रशिक्षण के लिए समृद्ध समय स्थानिक डेटा प्रदान करता है।
कई सार्वजनिक मूल्यांकन सेटों पर, CogVLM2-Video ने उत्कृष्ट प्रदर्शन प्रदर्शित किया है, जिसमें VideoChatGPT-Bench, Zero-shot QA और MVBench जैसे मात्रात्मक मूल्यांकन संकेतकों पर शानदार प्रदर्शन शामिल है।
कोड:https://github.com/THUDM/CogVLM2
प्रोजेक्ट वेबसाइट:https://cogvlm2-video.github.io
ऑनलाइन परीक्षण:http://36.103.203.44:7868/