वेबमास्टर होम (ChinaZ.com) 17 जून: हाल ही में, Zhipu, तियानजिन विश्वविद्यालय और पेइचिंग विश्वविद्यालय ने LVBench नामक एक लंबी वीडियो समझ परीक्षण परियोजना शुरू की है। मौजूदा बहु-मॉडल बड़े भाषा मॉडल ने हालांकि छोटे वीडियो समझ में महत्वपूर्ण प्रगति की है, लेकिन कई घंटों तक चलने वाले लंबे वीडियो को संभालने में अभी भी चुनौतियों का सामना करना पड़ता है। इस कमी को पूरा करने के लिए, LVBench का निर्माण किया गया है।

QQ截图20240617145826.png

इस परियोजना में 6 मुख्य श्रेणियों और 21 उपश्रेणियों के कई घंटों के QA डेटा शामिल हैं, जिसमें सार्वजनिक स्रोतों से विभिन्न प्रकार की वीडियो सामग्री जैसे कि टेलीविजन धारावाहिक, खेल प्रसारण और दैनिक निगरानी वीडियो शामिल हैं। ये डेटा उच्च गुणवत्ता के साथ चिह्नित किए गए हैं और LLM का उपयोग करके चुनौतीपूर्ण प्रश्नों को छांटा गया है। बताया गया है कि LVBench डेटा सेट में वीडियो सारांश, घटना पहचान, पात्र पहचान और दृश्य समझ जैसी कई कार्य शामिल हैं।

QQ截图20240617145801.png

LVBench बेंचमार्क का लॉन्च न केवल लंबी वीडियो स्थितियों में मॉडल की तर्क और संचालन क्षमताओं का परीक्षण करने के लिए है, बल्कि यह संबंधित प्रौद्योगिकियों में नवाचार और प्रगति को भी बढ़ावा देगा, जिससे लंबी वीडियो क्षेत्रों में सक्रिय बुद्धिमान निर्णय लेने, गहन फिल्म समीक्षाओं और पेशेवर खेल टिप्पणी जैसे अनुप्रयोगों की मांग को नई ऊर्जा मिलेगी।

कई शोध संस्थान LVBench डेटा सेट पर काम कर रहे हैं, लंबी वीडियो कार्यों के लिए बड़े मॉडल स्थापित करके, कृत्रिम बुद्धिमत्ता की दीर्घकालिक सूचना धाराओं को समझने की सीमाओं का धीरे-धीरे विस्तार कर रहे हैं, जिससे वीडियो समझ, बहु-मॉडल अध्ययन आदि क्षेत्रों की निरंतर खोज में नई जान फूकने में मदद मिल रही है।

गिटहब: https://github.com/THUDM/LVBench

परियोजना: https://lvbench.github.io

पत्र: https://arxiv.org/abs/2406.08035