वेबमास्टर होम (ChinaZ.com) 17 जून: हाल ही में, Zhipu, तियानजिन विश्वविद्यालय और पेइचिंग विश्वविद्यालय ने LVBench नामक एक लंबी वीडियो समझ परीक्षण परियोजना शुरू की है। मौजूदा बहु-मॉडल बड़े भाषा मॉडल ने हालांकि छोटे वीडियो समझ में महत्वपूर्ण प्रगति की है, लेकिन कई घंटों तक चलने वाले लंबे वीडियो को संभालने में अभी भी चुनौतियों का सामना करना पड़ता है। इस कमी को पूरा करने के लिए, LVBench का निर्माण किया गया है।
इस परियोजना में 6 मुख्य श्रेणियों और 21 उपश्रेणियों के कई घंटों के QA डेटा शामिल हैं, जिसमें सार्वजनिक स्रोतों से विभिन्न प्रकार की वीडियो सामग्री जैसे कि टेलीविजन धारावाहिक, खेल प्रसारण और दैनिक निगरानी वीडियो शामिल हैं। ये डेटा उच्च गुणवत्ता के साथ चिह्नित किए गए हैं और LLM का उपयोग करके चुनौतीपूर्ण प्रश्नों को छांटा गया है। बताया गया है कि LVBench डेटा सेट में वीडियो सारांश, घटना पहचान, पात्र पहचान और दृश्य समझ जैसी कई कार्य शामिल हैं।
LVBench बेंचमार्क का लॉन्च न केवल लंबी वीडियो स्थितियों में मॉडल की तर्क और संचालन क्षमताओं का परीक्षण करने के लिए है, बल्कि यह संबंधित प्रौद्योगिकियों में नवाचार और प्रगति को भी बढ़ावा देगा, जिससे लंबी वीडियो क्षेत्रों में सक्रिय बुद्धिमान निर्णय लेने, गहन फिल्म समीक्षाओं और पेशेवर खेल टिप्पणी जैसे अनुप्रयोगों की मांग को नई ऊर्जा मिलेगी।
कई शोध संस्थान LVBench डेटा सेट पर काम कर रहे हैं, लंबी वीडियो कार्यों के लिए बड़े मॉडल स्थापित करके, कृत्रिम बुद्धिमत्ता की दीर्घकालिक सूचना धाराओं को समझने की सीमाओं का धीरे-धीरे विस्तार कर रहे हैं, जिससे वीडियो समझ, बहु-मॉडल अध्ययन आदि क्षेत्रों की निरंतर खोज में नई जान फूकने में मदद मिल रही है।
गिटहब: https://github.com/THUDM/LVBench
परियोजना: https://lvbench.github.io
पत्र: https://arxiv.org/abs/2406.08035