हाल ही में, माइक्रोसॉफ्ट ने Phi-4 परिवार का विस्तार करते हुए दो नए मॉडल पेश किए हैं: Phi-4 मल्टीमॉडल (Phi-4-multimodal) और Phi-4 मिनी (Phi-4-mini)। इन मॉडलों के आगमन से विभिन्न प्रकार के AI अनुप्रयोगों को और अधिक शक्तिशाली प्रसंस्करण क्षमता मिलेगी।
Phi-4 मल्टीमॉडल मॉडल माइक्रोसॉफ्ट का पहला एकीकृत आर्किटेक्चर मॉडल है जो स्पीच, विज़न और टेक्स्ट प्रोसेसिंग को एक साथ जोड़ता है, जिसमें 56 मिलियन पैरामीटर हैं। यह मॉडल कई बेंचमार्क टेस्ट में बेहतरीन प्रदर्शन करता है और गूगल के Gemini 2.0 सीरीज़ जैसे कई प्रतिस्पर्धियों को पीछे छोड़ देता है। ऑटोमैटिक स्पीच रिकॉग्निशन (ASR) और स्पीच ट्रांसलेशन (ST) कार्यों में, Phi-4 मल्टीमॉडल मॉडल का प्रदर्शन विशेष रूप से उल्लेखनीय है, जिसने WhisperV3 और SeamlessM4T-v2-Large जैसे पेशेवर स्पीच मॉडल को पछाड़ दिया है, और Hugging Face OpenASR रैंकिंग में 6.14% की शब्द त्रुटि दर के साथ पहले स्थान पर है।
विज़न प्रोसेसिंग के मामले में, Phi-4 मल्टीमॉडल मॉडल का प्रदर्शन भी उल्लेखनीय है। गणित और वैज्ञानिक तर्क में इसकी क्षमता प्रभावशाली है, और यह दस्तावेज़ों, चार्टों को प्रभावी ढंग से समझ सकता है और ऑप्टिकल कैरेक्टर रिकॉग्निशन (OCR) कर सकता है। Gemini-2-Flash-lite-preview और Claude-3.5-Sonnet जैसे लोकप्रिय मॉडल की तुलना में, इस मॉडल का प्रदर्शन समान या उससे भी बेहतर है।
दूसरा नया मॉडल, Phi-4 मिनी, टेक्स्ट प्रोसेसिंग कार्यों पर केंद्रित है, जिसमें 38 मिलियन पैरामीटर हैं। टेक्स्ट रीज़निंग, गणितीय गणना, प्रोग्रामिंग और निर्देशों का पालन करने में, Phi-4 मिनी का प्रदर्शन कई लोकप्रिय बड़े भाषा मॉडल से बेहतर है। नए मॉडल की सुरक्षा और विश्वसनीयता सुनिश्चित करने के लिए, माइक्रोसॉफ्ट ने आंतरिक और बाहरी सुरक्षा विशेषज्ञों को व्यापक परीक्षण करने के लिए आमंत्रित किया है, और माइक्रोसॉफ्ट आर्टिफिशियल इंटेलिजेंस रेड टीम (AIRT) के मानकों के अनुसार इसे अनुकूलित किया गया है।
ये दोनों नए मॉडल ONNX Runtime के माध्यम से विभिन्न उपकरणों पर तैनात किए जा सकते हैं, जो कई कम लागत और कम विलंबता वाले अनुप्रयोग परिदृश्यों के लिए उपयुक्त हैं। ये मॉडल Azure AI Foundry, Hugging Face और NVIDIA API निर्देशिका में डेवलपर्स के लिए उपलब्ध हैं। इसमें कोई संदेह नहीं है कि Phi-4 सीरीज़ के नए मॉडल कुशल AI तकनीक में माइक्रोसॉफ्ट की एक महत्वपूर्ण प्रगति का प्रतीक हैं, और भविष्य के आर्टिफिशियल इंटेलिजेंस अनुप्रयोगों के लिए नई संभावनाएँ खोलते हैं।