वीडियो-CCAM

टेनसेंट QQ मल्टीमीडिया अनुसंधान दल द्वारा विकसित एक हल्का और लचीला बहुभाषी वीडियो मॉडल

सामान्य उत्पादवीडियोवीडियो समझबहुभाषी मॉडल

वीडियो-CCAM टेनसेंट QQ मल्टीमीडिया अनुसंधान दल द्वारा विकसित बहुभाषी वीडियो मॉडल (Video-MLLM) की एक श्रृंखला है, जिसका उद्देश्य वीडियो-भाषा समझ क्षमता को बढ़ाना है, विशेष रूप से लघु वीडियो और लंबे वीडियो के विश्लेषण के लिए उपयुक्त है। यह इस लक्ष्य को प्राप्त करने के लिए कार्यात्मक क्रॉस-ध्यान मास्क (Causal Cross-Attention Masks) का उपयोग करता है। वीडियो-CCAM ने कई बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन किया है, विशेष रूप से MVBench, VideoVista और MLVU पर। परिनियोजन प्रक्रिया को सरल बनाने के लिए मॉडल के सोर्स कोड को फिर से लिखा गया है।

कई वीडियो समझ बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन
लघु वीडियो और लंबे वीडियो के विश्लेषण का समर्थन
वीडियो-भाषा समझ क्षमता को बढ़ाने के लिए कार्यात्मक क्रॉस-ध्यान मास्क तकनीक का उपयोग
परिनियोजन प्रक्रिया को सरल बनाने के लिए सोर्स कोड को फिर से लिखा गया है
NVIDIA GPU पर Huggingface transformers के माध्यम से अनुमान का समर्थन
अध्ययन और अनुप्रयोग के लिए विस्तृत ट्यूटोरियल और उदाहरण प्रदान करता है

वीडियो-CCAM उन शोधकर्ताओं और डेवलपर्स के लिए उपयुक्त है जिन्हें वीडियो सामग्री विश्लेषण और समझ की आवश्यकता है
विशेष रूप से वीडियो भाषा मॉडल और बहु-मोडल शिक्षा के क्षेत्र में। यह उपयोगकर्ताओं को वीडियो सामग्री को गहराई से समझने और वीडियो विश्लेषण की सटीकता और दक्षता को बेहतर बनाने में मदद कर सकता है।

वीडियो-MME बेंचमार्क परीक्षण में
वीडियो-CCAM-14B ने 96 फ्रेम की स्थिति में बिना उपशीर्षक और उपशीर्षक के क्रमशः 53.2 और 57.4 का स्कोर प्राप्त किया।
वीडियो-CCAM ने VideoVista पर किए गए मूल्यांकन में दूसरा और तीसरा स्थान प्राप्त किया
जो ओपन-सोर्स MLLMs में इसकी प्रतिस्पर्धात्मकता को दर्शाता है।
MVBench पर

1. GitHub रिपॉजिटरी पृष्ठ पर जाएँ
वीडियो-CCAM की मूलभूत जानकारी और कार्यक्षमता को जानें।
2. README.md फ़ाइल पढ़ें
मॉडल की स्थापना और उपयोग के निर्देश प्राप्त करें।
3. tutorial.ipynb में दिए गए ट्यूटोरियल के अनुसार

वेबसाइट खोलें

वीडियो-CCAM नवीनतम ट्रैफ़िक स्थिति

मासिक कुल विज़िट

474564576

बाउंस दर

36.20%

प्रति विज़िट औसत पृष्ठ

6.1

औसत विज़िट अवधि

00:06:34

वीडियो-CCAM विज़िट प्रवृत्ति

वीडियो-CCAM विज़िट भौगोलिक वितरण

Best AI Websites & Tools

वीडियो-CCAM

वीडियो-CCAM नवीनतम ट्रैफ़िक स्थिति

वीडियो-CCAM विज़िट प्रवृत्ति

वीडियो-CCAM विज़िट भौगोलिक वितरण

वीडियो-CCAM ट्रैफ़िक स्रोत

वीडियो-CCAM विकल्प

वीडियो-CCAM — टेनसेंट QQ मल्टीमीडिया अनुसंधान दल द्वारा विकसित एक हल्का और लचीला बहुभाषी वीडियो मॉडल

विडियोLLaMA3 — विडियोLLaMA3 एक अत्याधुनिक बहु-मोडल आधारभूत मॉडल है जो छवि और वीडियो समझ पर केंद्रित है।

OmAgent.com — स्मार्ट उपकरणों आदि के लिए एक बहु-मॉडल मूल एजेंट ढांचा।

videoprompt.org — AI वीडियो निर्माण संकेत संग्रह

अपोलो-LMMs — बड़े बहुविधा मॉडल में वीडियो समझ की खोज

Qwen2-VL-7B — Qwen2-VL-7B एक नवीनतम दृश्य भाषा मॉडल है जो बहु-मोडल समझ और पाठ निर्माण का समर्थन करता है।

Qwen2-VL-2B — अत्याधुनिक दृश्य भाषा मॉडल, बहु-मोडल समझ और पाठ निर्माण का समर्थन करता है।

PPLLaVA — वीडियो अनुक्रम समझ के लिए GPU-आधारित मॉडल

LongVU — दीर्घ वीडियो भाषा समझ के लिए काल-स्थान अनुकूली संपीड़न मॉडल

एरिया — बहु-विधा मूल मिश्रित विशेषज्ञ मॉडल

LLaVA-वीडियो — वीडियो निर्देश ट्यूनिंग और सिंथेटिक डेटा अनुसंधान

गोल्डफ़िश — वीडियो समझने के लिए एक उन्नत मॉडल

InternLM-XComposer-2.5 — एक बहु-कार्यात्मक बड़ा दृश्य भाषा मॉडल

ShareGPT4Video — वीडियो की समझ और निर्माण को बेहतर बनाने वाला AI मॉडल।

वीडियोLLaMA2-7B — एक विशाल वीडियो-भाषा मॉडल जो दृश्य प्रश्नोत्तर और वीडियो उपशीर्षक पीढ़ी प्रदान करता है।

LVBench — दीर्घ वीडियो समझ बेंचमार्क

वीडियोLLaMA 2 — वीडियो समझ के क्षेत्र में उन्नत स्थान-समय मॉडलिंग और ऑडियो समझ मॉडल।

MA-LMM — दीर्घकालिक वीडियो समझ के लिए बड़ा बहु-मोडल मॉडल

मिनीGPT4-वीडियो — जटिल वीडियो को समझने वाला, कविता और कैप्शन बनाने वाला एक AI वीडियो मॉडल

अपोलो एलएलएम — अपोलो एक बहुभाषी चिकित्सा क्षेत्र का मॉडल, डेटासेट, बेंचमार्क और कोडबेस है।

वीडियोप्रिज्म — वीडियो समझ आधारित मॉडल