मैजिशियन

मैजिशियन एक बहु-मोडल बड़ा भाषा मॉडल है जो बहु-छवि स्थानीयकरण पर केंद्रित है, जो मुक्त-रूप बहु-छवि सटीक स्थानीयकरण को प्राप्त कर सकता है।

सामान्य उत्पादछविबहु-मोडलछवि स्थानीयकरण

वेबसाइट खोलें

मैजिशियन, Tsinghua विश्वविद्यालय की प्राकृतिक भाषा प्रसंस्करण प्रयोगशाला द्वारा विकसित एक बहु-मोडल बड़ा भाषा मॉडल है, जो बहु-छवि स्थानीयकरण कार्यों पर केंद्रित है। इस मॉडल ने एक अभिनव प्रशिक्षण ढाँचे और बड़े पैमाने पर डेटासेट MGrounding-630k को शामिल करके बहु-छवि परिदृश्यों में सटीक स्थानीयकरण क्षमता में उल्लेखनीय सुधार किया है। यह न केवल मौजूदा बहु-मोडल बड़े भाषा मॉडल से आगे निकल गया है, बल्कि प्रदर्शन में 70B से भी बड़े मॉडल को भी पार कर गया है। मैजिशियन का मुख्य लाभ इसकी जटिल बहु-छवि कार्यों को संभालने और मुक्त-रूप स्थानीयकरण निर्देश प्रदान करने की क्षमता है, जिससे बहु-छवि समझ क्षेत्र में इसका महत्वपूर्ण अनुप्रयोग संभावनाएँ हैं। यह मॉडल वर्तमान में हगिंग फेस पर खुला-स्रोत है, और शोधकर्ताओं और डेवलपर्स द्वारा उपयोग के लिए उपलब्ध है।

AI समाचार

AI दैनिक

AI समयरेखा

अल हार्डवेयर

नवीनतम मामले

छवि संग्रह

वीडियो संग्रह

ऑडियो संग्रह

सामग्री संग्रह

नवीनतम ट्यूटोरियल

AI उत्पाद रैंकिंग

AI ट्रैफ़िक वृद्धि रैंकिंग

AI ट्रैफ़िक गिरावट रैंकिंग

AI साप्ताहिक रैंकिंग

संयुक्त राज्य अमेरिका

चीन

भारत

ब्राजील

छवि निर्माण

निजी सहायक

चरित्र निर्माण

वीडियो निर्माण

AI प्रोजेक्ट रैंकिंग

AI प्रोजेक्ट विकास रैंकिंग

AI डेवलपर रैंकिंग

AI संगठन रैंकिंग

डीपसीक

TTS

LLM

ChatGPT

अवलोकन

मैजिशियन

मैजिशियन नवीनतम ट्रैफ़िक स्थिति

मैजिशियन विज़िट प्रवृत्ति

मैजिशियन विज़िट भौगोलिक वितरण

मैजिशियन ट्रैफ़िक स्रोत

मैजिशियन विकल्प

ViDoRAG — ViDoRAG एक दृश्य दस्तावेज़ पुनर्प्राप्ति संवर्धित पीढ़ी गतिशील पुनरावृति तर्क एजेंट ढांचा है।

Janus-Pro-1B — Janus-Pro-1B एक एकीकृत बहु-मोडल समझ और पीढ़ी वाला स्व-पुनरावर्ती ढाँचा है।

विडियोLLaMA3 — विडियोLLaMA3 एक अत्याधुनिक बहु-मोडल आधारभूत मॉडल है जो छवि और वीडियो समझ पर केंद्रित है।

WePOINTS — WePOINTS परियोजना बहु-मोडल मॉडल का एक एकीकृत ढाँचा प्रदान करती है

InternVL2_5-38B — उन्नत बहु-मोडल बड़े भाषा मॉडल श्रृंखला

Pixtral-Large-Instruct-2411 — 124B पैरामीटर वाला बहु-मोडल बड़ा भाषा मॉडल

पश्चिम झील बड़ा मॉडल — उच्च भावनात्मक बुद्धिमत्ता और बुद्धिमत्ता वाला बहु-मोडल बड़ा मॉडल

मेटा लामा 3 — मेटा का नया पीढ़ी का खुला स्रोत बड़ा भाषा मॉडल, बेहतरीन प्रदर्शन वाला।

ग्रोक-1.5 विज़न पूर्वावलोकन — डिजिटल और भौतिक दुनिया को जोड़ने वाला पहला बहु-मोडल मॉडल

Yi-VL-34B — उन्नत ओपन-सोर्स बहु-मोडल मॉडल

PixelLLM — पिक्सेल संरेखित भाषा मॉडल

कुछ भी वर्णन करें — एक गहन शिक्षा-आधारित छवि और वीडियो विवरण मॉडल।

Search-R1 — एक कुशल प्रबलित अधिगम ढाँचा, जो अनुमान और खोज इंजन कॉल करने वाले भाषा मॉडल को प्रशिक्षित करने के लिए है।

d1 — प्रबलित अधिगम का उपयोग करके प्रसार बड़े भाषा मॉडल की अनुमान क्षमता में वृद्धि करना।

GLM-4-32B — एक शक्तिशाली भाषा मॉडल जो कई प्राकृतिक भाषा प्रसंस्करण कार्यों का समर्थन करता है।

एग्नो — एक हल्का पुस्तकालय, बहु-मॉडल एजेंट बनाने के लिए।

मिश्रित T1 — उद्योग में अग्रणी गहन तर्क बड़ा मॉडल, मानवीय प्राथमिकताओं का अनुकूलन करता है।

रेका फ़्लैश 3 — एक 21B सामान्य तर्क मॉडल, कम विलंब अनुप्रयोगों के लिए उपयुक्त है।

o1-pro — o1-pro मॉडल बेहतर उत्तर प्रदान करने के लिए सुदृढीकरण शिक्षा द्वारा जटिल तर्क क्षमता को बढ़ाता है।

Light-R1-14B-DS — एक ओपन-सोर्स 14B पैरामीटर गणितीय मॉडल, जो सुदृढीकरण शिक्षण द्वारा प्रशिक्षित है, उत्कृष्ट प्रदर्शन करता है।

BashBuddy — BashBuddy आपको प्राकृतिक रूप से कमांड इनपुट करने की अनुमति देता है, बिना पैरामीटर या सिंटैक्स की चिंता किए।