MinMo

MinMo एक बहु-मोडल बड़ा भाषा मॉडल है, जो निर्बाध आवाज़ इंटरैक्शन के लिए डिज़ाइन किया गया है।

सामान्य उत्पादचैटिंगआवाज़ इंटरैक्शनबहु-मोडल

MinMo अलीबाबा ग्रुप के Tongyi लैब द्वारा विकसित एक बहु-मोडल बड़ा भाषा मॉडल है, जिसमें लगभग 8 अरब पैरामीटर हैं, और जो निर्बाध आवाज़ इंटरैक्शन पर केंद्रित है। इसे कई चरणों में प्रशिक्षित किया गया है, जिसमें आवाज़ से टेक्स्ट अलाइनमेंट, टेक्स्ट से आवाज़ अलाइनमेंट, आवाज़ से आवाज़ अलाइनमेंट और फुल-डुप्लेक्स इंटरैक्शन अलाइनमेंट शामिल हैं, और इसे 14 लाख घंटे के विविध आवाज़ डेटा और व्यापक आवाज़ कार्यों पर प्रशिक्षित किया गया है। MinMo ने आवाज़ समझ और उत्पादन के विभिन्न बेंचमार्क में अत्याधुनिक प्रदर्शन हासिल किया है, साथ ही टेक्स्ट बड़े भाषा मॉडल की क्षमता को भी बनाए रखा है, और फुल-डुप्लेक्स संवाद का समर्थन करता है, अर्थात उपयोगकर्ता और सिस्टम के बीच एक साथ द्विदिश संचार। इसके अलावा, MinMo एक नए और सरल आवाज़ डिकोडर को भी प्रस्तुत करता है, जो आवाज़ उत्पादन में पिछले मॉडल से आगे निकल गया है। MinMo की निर्देश पालन करने की क्षमता को बढ़ाया गया है, जो उपयोगकर्ता के निर्देशों के अनुसार आवाज़ उत्पादन को नियंत्रित करने का समर्थन करता है, जिसमें भावनाएँ, बोलियाँ और गति जैसी बारीकियाँ शामिल हैं, और विशिष्ट आवाज़ों की नकल भी करता है। MinMo का आवाज़ से टेक्स्ट विलंब लगभग 100 मिलीसेकंड है, फुल-डुप्लेक्स विलंब सैद्धांतिक रूप से लगभग 600 मिलीसेकंड है, जबकि वास्तविक लगभग 800 मिलीसेकंड है। MinMo का विकास पिछले मल्टी-मोडल मॉडल की मुख्य सीमाओं को दूर करने के उद्देश्य से किया गया है, ताकि उपयोगकर्ताओं को अधिक प्राकृतिक, सहज और मानवीय आवाज़ इंटरैक्शन अनुभव प्रदान किया जा सके।

AI समाचार

AI दैनिक

AI समयरेखा

नवीनतम मामले

छवि संग्रह

वीडियो संग्रह

ऑडियो संग्रह

सामग्री संग्रह

नवीनतम ट्यूटोरियल

AI उत्पाद रैंकिंग

AI ट्रैफ़िक वृद्धि रैंकिंग

AI ट्रैफ़िक गिरावट रैंकिंग

AI साप्ताहिक रैंकिंग

संयुक्त राज्य अमेरिका

चीन

भारत

ब्राजील

छवि निर्माण

निजी सहायक

चरित्र निर्माण

वीडियो निर्माण

AI प्रोजेक्ट रैंकिंग

AI प्रोजेक्ट विकास रैंकिंग

AI डेवलपर रैंकिंग

AI संगठन रैंकिंग

डीपसीक

TTS

LLM

ChatGPT

अवलोकन

MinMo

MinMo नवीनतम ट्रैफ़िक स्थिति

MinMo विज़िट प्रवृत्ति

MinMo विज़िट भौगोलिक वितरण

MinMo ट्रैफ़िक स्रोत

MinMo विकल्प

MinMo — MinMo एक बहु-मोडल बड़ा भाषा मॉडल है, जो निर्बाध आवाज़ इंटरैक्शन के लिए डिज़ाइन किया गया है।

MNN बड़ा भाषा मॉडल Android ऐप — एक बहु-मोडल फ़ंक्शन वाला पूर्ण-सुविधा वाला बड़ा भाषा मॉडल एंड्रॉइड ऐप।

InternVL2_5-78B-MPO — यह एक उन्नत बहु-मोडल बड़ा भाषा मॉडल श्रृंखला है जो उत्कृष्ट समग्र प्रदर्शन दर्शाता है।

InternVL2_5-38B-MPO — InternVL2.5-MPO श्रृंखला मॉडल, InternVL2.5 और मिश्रित वरीयता अनुकूलन पर आधारित, उत्कृष्ट प्रदर्शन प्रदर्शित करता है।

InternVL2_5-26B-MPO-AWQ — यह एक उन्नत बहु-मोडल बड़ा भाषा मॉडल है, जिसमें बेहतरीन बहु-मोडल तर्क क्षमता है।

VITA-1.5 — VITA-1.5: वास्तविक समय दृश्य और ध्वनि संपर्क वाला GPT-4o स्तरीय बहु-मोडल बड़ा भाषा मॉडल

वैली (Valley) — बहु-मोडल बड़ा भाषा मॉडल, जो टेक्स्ट, इमेज और वीडियो डेटा को संसाधित करता है

InternVL2_5-38B — उन्नत बहु-मोडल बड़े भाषा मॉडल श्रृंखला

Pixtral-Large-Instruct-2411 — 124B पैरामीटर वाला बहु-मोडल बड़ा भाषा मॉडल

Ferret-UI-Llama8b — Llama-3-8B पर आधारित बहु-मोडल बड़ा भाषा मॉडल, जो UI कार्यों पर केंद्रित है।

MA-LMM — दीर्घकालिक वीडियो समझ के लिए बड़ा बहु-मोडल मॉडल

ड्रीम 7B — ड्रीम 7B सबसे शक्तिशाली खुला प्रसार बड़ा भाषा मॉडल है।

Argo — अपना खुद का बड़ा मॉडल आसानी से बनाएँ, विशेष बुद्धिमत्ता, केवल स्थानीय रूप से।

UniTok — UniTok एक एकीकृत दृश्य टोकनित्र है जिसका उपयोग दृश्य निर्माण और समझ के लिए किया जाता है।

ViDoRAG — ViDoRAG एक दृश्य दस्तावेज़ पुनर्प्राप्ति संवर्धित पीढ़ी गतिशील पुनरावृति तर्क एजेंट ढांचा है।

TheoremExplainAgent — TheoremExplainAgent एक बुद्धिमान प्रणाली है जो बहु-मोडल प्रमेय व्याख्या वीडियो बनाने के लिए उपयोग की जाती है।

SWE-RL — ओपन सोर्स सॉफ्टवेयर के विकास में बड़े भाषा मॉडल की अनुमान क्षमता को सुदृढीकरण अधिगम द्वारा बढ़ाना

Goedel-Prover — Goedel-Prover एक ओपन-सोर्स ऑटोमेटेड थ्योरम प्रूविंग मॉडल है जो गणितीय समस्याओं के औपचारिक प्रमाण पर केंद्रित है।