वीडियोLLaMA2-7B-एक विशाल वीडियो-भाषा मॉडल जो दृश्य प्रश्नोत्तर और वीडियो उपशीर्षक पीढ़ी प्रदान करता है।

वीडियोLLaMA2-7B — एक विशाल वीडियो-भाषा मॉडल जो दृश्य प्रश्नोत्तर और वीडियो उपशीर्षक पीढ़ी प्रदान करता है।

वीडियोRAG — वीडियोRAG अत्यधिक लंबे संदर्भ वाले वीडियो को संसाधित करने के लिए एक पुनर्प्राप्ति-वर्धित जेनरेटिव ढाँचा है।

वीडियो

•वीडियो समझ•पुनर्प्राप्ति-वर्धित

234

Qwen2.5-VL — Qwen2.5-VL एक शक्तिशाली दृश्य भाषा मॉडल है जो छवियों और वीडियो सामग्री को समझ सकता है और उसके अनुसार पाठ उत्पन्न कर सकता है।

चीनी चयन

•बहु-मोडल•छवि पहचान

1098

विडियोLLaMA3 — विडियोLLaMA3 एक अत्याधुनिक बहु-मोडल आधारभूत मॉडल है जो छवि और वीडियो समझ पर केंद्रित है।

वीडियो

•बहु-मोडल•वीडियो समझ

234

MiniCPM-o-2_6 — MiniCPM-o 2.6 एक शक्तिशाली बहु-मोडल बड़ा भाषा मॉडल है, जो दृश्य, वाक् और बहु-मोडल लाइव स्ट्रीमिंग के लिए उपयुक्त है।

अन्य

•बहु-मोडल•भाषा मॉडल

486

MiniCPM-o — MiniCPM-o 2.6: एक GPT-4o-स्तरीय MLLM जो मोबाइल पर दृश्य, ध्वनि और बहु-मोडल लाइव स्ट्रीमिंग को सक्षम बनाता है।

अन्य

•बहु-मोडल•भाषा मॉडल

390

गति की भाषा — 3D मानव गति के मौखिक और अमौखिक भाषा का एकीकृत मॉडल

अन्य

•3D मानव गति•बहु-मोडल

132

Qwen2-VL-7B — Qwen2-VL-7B एक नवीनतम दृश्य भाषा मॉडल है जो बहु-मोडल समझ और पाठ निर्माण का समर्थन करता है।

छवि

•दृश्य भाषा मॉडल•बहु-मोडल

186

Qwen2-VL-2B — अत्याधुनिक दृश्य भाषा मॉडल, बहु-मोडल समझ और पाठ निर्माण का समर्थन करता है।

छवि

•दृश्य भाषा मॉडल•बहु-मोडल

174

मंत्रमुग्ध (Enchanted) — निजी स्व-होस्टेड भाषा मॉडल के साथ बातचीत करने के लिए iOS/macOS ऐप

प्रोग्रामिंग

•स्विफ्ट•iOS

876

MistralOCR.net — Mistral OCR एक शक्तिशाली दस्तावेज़ समझ OCR उत्पाद है जो PDF और छवियों से पाठ, छवियों, तालिकाओं और समीकरणों को अत्यधिक सटीकता के साथ निकाल सकता है।

उत्पादकता

•दस्तावेज़ प्रसंस्करण•OCR

192

जंबा 1.6 — AI21 द्वारा लॉन्च किया गया जंबा 1.6 मॉडल, विशेष रूप से उद्यम निजी तैनाती के लिए डिज़ाइन किया गया है, जिसमें उत्कृष्ट लंबे पाठ प्रसंस्करण क्षमता है।

उत्पादकता

•भाषा मॉडल•लंबे पाठ प्रसंस्करण

84

R1-Omni — R1-Omni एक प्रबलित अधिगम के साथ संयुक्त पूर्ण-मोडल भावना पहचान मॉडल है, जो बहु-मोडल भावना पहचान की व्याख्यात्मकता को बेहतर बनाने पर केंद्रित है।

प्रोग्रामिंग

•बहु-मोडल•भावना पहचान

168

इनसेप्शन लैब्स — इनसेप्शन लैब्स ने अगली पीढ़ी के प्रसारात्मक बड़े भाषा मॉडल लॉन्च किए हैं, जो अत्यधिक तेज, कुशल और उच्च-गुणवत्ता वाली भाषा निर्माण क्षमता प्रदान करते हैं।

अंतर्राष्ट्रीय चयन

•कृत्रिम बुद्धिमत्ता•भाषा मॉडल

162

ओपनमैनस — ओपनमैनस एक ओपन-सोर्स बुद्धिमान एजेंट प्रोजेक्ट है जिसका उपयोग बिना आमंत्रण कोड के किया जा सकता है।

उत्पादकता

•ओपन-सोर्स•बुद्धिमान एजेंट

144

Instella — Instella AMD द्वारा विकसित एक उच्च-प्रदर्शन वाला ओपन-सोर्स भाषा मॉडल है, जिसे ओपन-सोर्स भाषा मॉडल के विकास में तेजी लाने के लिए डिज़ाइन किया गया है।

प्रोग्रामिंग

•ओपन-सोर्स•भाषा मॉडल

180

आया विजन — आया विजन कोहरे द्वारा लॉन्च किया गया एक बहुभाषी बहु-मोडल दृश्य मॉडल है, जिसका उद्देश्य बहुभाषी परिदृश्यों में दृश्य और पाठ समझ क्षमता को बढ़ाना है।

अंतर्राष्ट्रीय चयन

•बहुभाषी•बहु-मोडल

108

एगोलाइफ़ — एगोलाइफ़ एक दीर्घकालिक, बहु-मोडल, बहु-दृष्टिकोण दैनिक जीवन AI सहायक परियोजना है, जिसका उद्देश्य दीर्घकालिक संदर्भ समझ अनुसंधान को आगे बढ़ाना है।

उत्पादकता

•बहु-मोडल•बहु-दृष्टिकोण

150

UniTok — UniTok एक एकीकृत दृश्य टोकनित्र है जिसका उपयोग दृश्य निर्माण और समझ के लिए किया जाता है।

छवि

•कृत्रिम बुद्धिमत्ता•दृश्य निर्माण

156

ViDoRAG — ViDoRAG एक दृश्य दस्तावेज़ पुनर्प्राप्ति संवर्धित पीढ़ी गतिशील पुनरावृति तर्क एजेंट ढांचा है।

प्रोग्रामिंग

•बहु-मोडल•पुनर्प्राप्ति संवर्धित पीढ़ी

84

मैजिशियन — मैजिशियन एक बहु-मोडल बड़ा भाषा मॉडल है जो बहु-छवि स्थानीयकरण पर केंद्रित है, जो मुक्त-रूप बहु-छवि सटीक स्थानीयकरण को प्राप्त कर सकता है।

छवि

•बहु-मोडल•छवि स्थानीयकरण

126

Mochii AI — Mochii AI एक व्यक्तिगत कृत्रिम बुद्धिमत्ता पारिस्थितिकी तंत्र है जो अत्याधुनिक मॉडल द्वारा समर्थित है, जो मानव और AI सहयोग के भविष्य को बढ़ावा देता है।

चीनी चयन

•कृत्रिम बुद्धिमत्ता•उत्पादकता उपकरण

132

TheoremExplainAgent — TheoremExplainAgent एक बुद्धिमान प्रणाली है जो बहु-मोडल प्रमेय व्याख्या वीडियो बनाने के लिए उपयोग की जाती है।

शिक्षा

•कृत्रिम बुद्धिमत्ता•शिक्षा

138

GPT-4.5 — OpenAI द्वारा लॉन्च किया गया नवीनतम भाषा मॉडल GPT-4.5, बिना निगरानी वाले शिक्षण क्षमता को बेहतर बनाने पर केंद्रित है, और अधिक प्राकृतिक बातचीत अनुभव प्रदान करता है।

वैश्विक ट्रेंडिंग

•कृत्रिम बुद्धिमत्ता•भाषा मॉडल

150

AI समाचार

AI दैनिक

AI समयरेखा

नवीनतम मामले

छवि संग्रह

वीडियो संग्रह

ऑडियो संग्रह

सामग्री संग्रह

नवीनतम ट्यूटोरियल

AI उत्पाद रैंकिंग

AI ट्रैफ़िक वृद्धि रैंकिंग

AI ट्रैफ़िक गिरावट रैंकिंग

AI साप्ताहिक रैंकिंग

संयुक्त राज्य अमेरिका

चीन

भारत

ब्राजील

छवि निर्माण

निजी सहायक

चरित्र निर्माण

वीडियो निर्माण

AI प्रोजेक्ट रैंकिंग

AI प्रोजेक्ट विकास रैंकिंग

AI डेवलपर रैंकिंग

AI संगठन रैंकिंग

डीपसीक

TTS

LLM

ChatGPT

अवलोकन

वीडियोLLaMA2-7B

वीडियोLLaMA2-7B नवीनतम ट्रैफ़िक स्थिति

वीडियोLLaMA2-7B विज़िट प्रवृत्ति

वीडियोLLaMA2-7B विज़िट भौगोलिक वितरण

वीडियोLLaMA2-7B ट्रैफ़िक स्रोत

वीडियोLLaMA2-7B विकल्प

वीडियोLLaMA2-7B — एक विशाल वीडियो-भाषा मॉडल जो दृश्य प्रश्नोत्तर और वीडियो उपशीर्षक पीढ़ी प्रदान करता है।

विडियोLLaMA3 — विडियोLLaMA3 एक अत्याधुनिक बहु-मोडल आधारभूत मॉडल है जो छवि और वीडियो समझ पर केंद्रित है।

MiniCPM-o-2_6 — MiniCPM-o 2.6 एक शक्तिशाली बहु-मोडल बड़ा भाषा मॉडल है, जो दृश्य, वाक् और बहु-मोडल लाइव स्ट्रीमिंग के लिए उपयुक्त है।

MiniCPM-o — MiniCPM-o 2.6: एक GPT-4o-स्तरीय MLLM जो मोबाइल पर दृश्य, ध्वनि और बहु-मोडल लाइव स्ट्रीमिंग को सक्षम बनाता है।

गति की भाषा — 3D मानव गति के मौखिक और अमौखिक भाषा का एकीकृत मॉडल

Qwen2-VL-7B — Qwen2-VL-7B एक नवीनतम दृश्य भाषा मॉडल है जो बहु-मोडल समझ और पाठ निर्माण का समर्थन करता है।

Qwen2-VL-2B — अत्याधुनिक दृश्य भाषा मॉडल, बहु-मोडल समझ और पाठ निर्माण का समर्थन करता है।

मंत्रमुग्ध (Enchanted) — निजी स्व-होस्टेड भाषा मॉडल के साथ बातचीत करने के लिए iOS/macOS ऐप

MA-LMM — दीर्घकालिक वीडियो समझ के लिए बड़ा बहु-मोडल मॉडल

Qwen-VL — सामान्य दृश्य भाषा मॉडल

स्पीचGPT — बहु-मोडल भाषा मॉडल

ml-फेर्रेट — सटीक उद्धरण और लोकेशन के साथ एंड-टू-एंड MLLM

सीएलओटी (CLoT) — LLM की रचनात्मकता और हास्य क्षमता का पता लगाएँ

Fin-R1 — प्रबलित अधिगम द्वारा संचालित वित्तीय तर्क बड़ा भाषा मॉडल।

ओपनमैनस — ओपनमैनस एक ओपन-सोर्स बुद्धिमान एजेंट प्रोजेक्ट है जिसका उपयोग बिना आमंत्रण कोड के किया जा सकता है।

UniTok — UniTok एक एकीकृत दृश्य टोकनित्र है जिसका उपयोग दृश्य निर्माण और समझ के लिए किया जाता है।

ViDoRAG — ViDoRAG एक दृश्य दस्तावेज़ पुनर्प्राप्ति संवर्धित पीढ़ी गतिशील पुनरावृति तर्क एजेंट ढांचा है।

TheoremExplainAgent — TheoremExplainAgent एक बुद्धिमान प्रणाली है जो बहु-मोडल प्रमेय व्याख्या वीडियो बनाने के लिए उपयोग की जाती है।