OpenBMB टीम ने हाल ही में MiniCPM-o2.6 लॉन्च किया है, जो इस श्रृंखला का नवीनतम और सबसे शक्तिशाली मल्टीमोडल बड़े भाषा मॉडल (MLLM) है। MiniCPM-o2.6 की सबसे बड़ी विशेषता इसके 800 मिलियन पैरामीटर हैं, जो इसे दृश्य, वॉयस और मल्टीमोडल लाइवस्ट्रीमिंग के क्षेत्र में GPT-4o-202405 के करीब बनाते हैं, जिससे यह ओपन-सोर्स समुदाय में एक बहुपरकारी और प्रभावी विकल्प बनता है।

image.png

MiniCPM-o2.6 में शक्तिशाली इनपुट प्रोसेसिंग क्षमता है, जो छवियों, वीडियो, टेक्स्ट और ऑडियो सहित विभिन्न इनपुट तरीकों को स्वीकार कर सकता है और उच्च गुणवत्ता वाले टेक्स्ट और वॉयस आउटपुट प्रदान करता है।

इस मॉडल के वॉयस मोड में द्विभाषी वास्तविक समय संवाद की सुविधा जोड़ी गई है, उपयोगकर्ता अपनी आवश्यकताओं के अनुसार विभिन्न आवाज़ों को कॉन्फ़िगर कर सकते हैं, जिसमें भावनाओं, गति और शैली का नियंत्रण शामिल है, और यहां तक कि यह रोले प्लेइंग और वॉयस क्लोनिंग जैसे मजेदार अनुप्रयोगों को भी सक्षम बनाता है। ये सभी नवाचार MiniCPM-o2.6 को इंटरएक्टिव अनुभव में और भी समृद्ध बनाते हैं, जिससे उपयोगकर्ता अधिक स्वाभाविक और सहज संवाद का आनंद ले सकते हैं।

वॉयस संवाद के क्षेत्र में सफलताओं के अलावा, MiniCPM-o2.6 ने दृश्य प्रोसेसिंग क्षमता में भी महत्वपूर्ण प्रगति की है। इसकी शक्तिशाली OCR (ऑप्टिकल कैरेक्टर रिकग्निशन) क्षमता और बहु-भाषा समर्थन इसे वास्तविक समय वीडियो समझने में अधिक कुशल बनाता है। यह उत्कृष्ट क्षमता पहली बार मोबाइल उपकरणों पर मल्टीमोडल लाइवस्ट्रीमिंग को सक्षम बनाती है, जिससे उपयोगकर्ता iPad जैसे उपकरणों पर लाइवस्ट्रीम कर सकते हैं, जिससे इंटरएक्टिव और मजेदार सामग्री साझा करने का अनुभव मिलता है।

फरवरी 2024 से, MiniCPM श्रृंखला के छह संस्करण जारी किए जा चुके हैं, टीम का उद्देश्य मॉडल के प्रदर्शन और तैनाती दक्षता में निरंतर सुधार करना है। यह मॉडल न केवल तकनीकी नवाचार का प्रतिनिधित्व करता है, बल्कि मल्टीमोडल इंटरएक्टिव अनुभव में भी महत्वपूर्ण प्रगति का संकेत है। चाहे वह पेशेवर क्षेत्र में अनुप्रयोग हो या दैनिक जीवन में मनोरंजन संवाद, MiniCPM-o2.6 उपयोगकर्ताओं के लिए एक अनिवार्य स्मार्ट सहायक बन जाएगा।

प्रोजेक्ट का पता: https://github.com/OpenBMB/MiniCPM-o