माइक्रोसॉफ्ट ने हाल ही में Phi-3.5-vision जारी किया है, जो एक हल्का, बहु-मोडल ओपन-सोर्स एआई मॉडल है। यह Phi-3 मॉडल परिवार का नया सदस्य है, जिसे उन अनुप्रयोगों के लिए डिज़ाइन किया गया है जिन्हें एक साथ पाठ और दृश्य इनपुट को संसाधित करने की आवश्यकता होती है। Phi-3.5-vision मॉडल सीमित मेमोरी या गणना संसाधनों वाले वातावरण में उत्कृष्ट प्रदर्शन करता है, 128K की संदर्भ लंबाई का समर्थन करता है, और व्यावसायिक और अनुसंधान क्षेत्रों के लिए आदर्श विकल्प है।

image.png

Phi-3.5-vision मॉडल में व्यापक छवि समझ, ऑप्टिकल कैरेक्टर रिकग्निशन (OCR), चार्ट और तालिका विश्लेषण, कई छवियों या वीडियो क्लिप का सारांश जैसी सुविधाएँ हैं। छवि और वीडियो प्रोसेसिंग से संबंधित बेंचमार्क परीक्षणों में, इस मॉडल ने महत्वपूर्ण प्रदर्शन सुधार दिखाया है।

Phi-3.5-vision मॉडल 42 अरब पैरामीटर के एक सिस्टम से बना है, जिसमें छवि एन्कोडर, कनेक्टर, प्रक्षिप्तक और Phi-3Mini भाषा मॉडल शामिल हैं। यह उच्च गुणवत्ता वाले शैक्षिक डेटा, सिंथेटिक डेटा और कड़ी निगरानी वाले सार्वजनिक दस्तावेजों का उपयोग करके प्रशिक्षित किया गया है, जिससे डेटा गुणवत्ता और गोपनीयता सुनिश्चित होती है।

Phi-3.5-vision में तीन मॉडल शामिल हैं:

Phi-3.5Mini Instruct: हल्का एआई मॉडल, जो सीमित मेमोरी या गणना संसाधनों वाले वातावरण के लिए उपयुक्त है।

Phi-3.5MoE (Mixture of Experts): माइक्रोसॉफ्ट द्वारा पहली बार पेश किया गया "विशेषज्ञ मिश्रण" मॉडल, जो जटिल कार्यों को संभालने में कुशल है।

Phi-3.5Vision Instruct: बहु-मोडल मॉडल, जो पाठ और छवि प्रोसेसिंग सुविधाओं को एकीकृत करता है।

मुख्य विशेषताएँ

Phi-3.5-vision मॉडल की मुख्य विशेषताओं में छवि समझ, OCR, चार्ट और तालिका समझ, कई छवियों की तुलना, कई छवियों या वीडियो क्लिप का सारांश, कुशल अनुकरण क्षमता और कम विलंबता और मेमोरी अनुकूलन शामिल हैं।

Phi-3.5-vision ने कई बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन किया है, जैसे MMMU, MMBench, TextVQA और वीडियो प्रोसेसिंग क्षमता परीक्षण, साथ ही BLINK बेंचमार्क परीक्षण, जिसने बहु-मोडल और दृश्य कार्यों में इसकी मजबूत क्षमता को प्रदर्शित किया है।

माइक्रोसॉफ्ट Phi-3.5-vision मॉडल का प्रकाशन एआई क्षेत्र में एक नया विकल्प लाता है, विशेष रूप से एंड-साइड संचालन और जटिल दृश्य अनुकरण में। इसकी ओपन-सोर्स विशेषताएँ और अनुकूलित डिज़ाइन इसे संसाधन-सीमित वातावरण में भी उत्कृष्ट प्रदर्शन देने में सक्षम बनाती हैं, जिससे विभिन्न एआई-संचालित अनुप्रयोगों के लिए मजबूत समर्थन प्रदान होता है।

मॉडल डाउनलोड लिंक: https://huggingface.co/microsoft/Phi-3.5-vision-instruct