माइक्रोसॉफ्ट ने हाल ही में हगिंग फेस प्लेटफार्म पर Phi-4 नामक एक छोटे भाषा मॉडल को जारी किया है, जिसमें केवल 14 अरब पैरामीटर हैं, लेकिन कई प्रदर्शन परीक्षणों में उत्कृष्ट प्रदर्शन किया है, जो कई प्रसिद्ध मॉडलों को पीछे छोड़ देता है, जिनमें OpenAI का GPT-4o और अन्य समान ओपन-सोर्स मॉडल जैसे Qwen2.5 और Llama-3.1 शामिल हैं।

image.png

अमेरिका के गणित प्रतियोगिता AMC के पिछले परीक्षण में, Phi-4 ने 91.8 अंक प्राप्त किए, जो Gemini Pro1.5, Claude3.5Sonnet जैसे प्रतिस्पर्धियों की तुलना में काफी बेहतर है। और भी आश्चर्य की बात यह है कि इस छोटे पैरामीटर मॉडल ने MMLU परीक्षण में 84.8 का उच्च स्कोर प्राप्त किया, जो इसकी मजबूत तर्क शक्ति और गणितीय प्रसंस्करण क्षमताओं को पूरी तरह से दर्शाता है।

image.png

कई जैविक डेटा स्रोतों पर निर्भर मॉडलों के विपरीत, Phi-4 ने उच्च गुणवत्ता वाले संश्लेषित डेटा उत्पन्न करने के लिए नवोन्मेषी तरीकों को अपनाया है, जिसमें मल्टी-एजेंट संकेत, निर्देश उलटने और आत्म-सुधार जैसी तकनीकें शामिल हैं। ये तरीके Phi-4 की तर्क और समस्या समाधान क्षमताओं को काफी बढ़ाते हैं, जिससे यह अधिक जटिल कार्यों को संभालने में सक्षम होता है।

Phi-4 ने केवल डिकोडर के ट्रांसफार्मर आर्किटेक्चर को अपनाया है, जो 16k तक के संदर्भ की लंबाई का समर्थन करता है, जो बड़े इनपुट डेटा को संभालने के लिए बहुत उपयुक्त है। इसके पूर्व-प्रशिक्षण में लगभग 100 ट्रिलियन टोकन का उपयोग किया गया, जिसमें संश्लेषित डेटा और सख्त छानबीन किए गए जैविक डेटा को मिलाया गया, यह सुनिश्चित करने के लिए कि MMLU और HumanEval जैसे बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन किया जाए।

Phi-4 की विशेषताएँ और लाभों में शामिल हैं: उपभोक्ता स्तर के हार्डवेयर के लिए कॉम्पैक्टनेस और दक्षता; STEM संबंधित कार्यों में पूर्ववर्ती और बड़े मॉडलों की तर्क क्षमताओं को पार करना; विविध संश्लेषित डेटा सेट के साथ फाइन-ट्यूनिंग का समर्थन करना, जो विशिष्ट क्षेत्रों की आवश्यकताओं को पूरा करने में सहायक है। इसके अलावा, Phi-4 ने हगिंग फेस प्लेटफार्म पर विस्तृत दस्तावेज़ और API प्रदान किया है, जिससे डेवलपर्स के लिए एकीकरण करना आसान हो गया है।

तकनीकी नवाचार के संदर्भ में, Phi-4 का विकास मुख्य रूप से तीन स्तंभों पर निर्भर करता है: संश्लेषित डेटा उत्पन्न करने के लिए मल्टी-एजेंट और आत्म-सुधार तकनीक, बाद में प्रशिक्षण वृद्धि विधियाँ जैसे कि अस्वीकृति नमूनाकरण और प्रत्यक्ष प्राथमिकता अनुकूलन (DPO), और सख्त छानबीन किए गए प्रशिक्षण डेटा, यह सुनिश्चित करने के लिए कि बेंचमार्क के ओवरलैप डेटा को न्यूनतम किया जाए, जिससे मॉडल की सामान्यीकरण क्षमता में सुधार होता है। इसके अलावा, Phi-4 महत्वपूर्ण टोकन खोज (PTS) का उपयोग करता है ताकि निर्णय प्रक्रिया में महत्वपूर्ण नोड्स की पहचान की जा सके, जिससे यह जटिल तर्क कार्यों को संभालने की अपनी क्षमता को अनुकूलित करता है।

image.png

Phi-4 के ओपन-सोर्स होने के साथ, डेवलपर्स की उम्मीदें आखिरकार सच हो गई हैं। यह मॉडल न केवल हगिंगफेस प्लेटफार्म पर डाउनलोड के लिए उपलब्ध है, बल्कि MIT लाइसेंस के तहत व्यावसायिक उपयोग का समर्थन भी करता है। यह ओपन पॉलिसी बड़ी संख्या में डेवलपर्स और AI उत्साही लोगों का ध्यान आकर्षित कर रही है, हगिंगफेस के आधिकारिक सोशल मीडिया ने भी इसे "अब तक का सबसे अच्छा 14B मॉडल" कहते हुए बधाई दी है।

मॉडल लिंक: https://huggingface.co/microsoft/phi-4

मुख्य बिंदु:

🧠 ** माइक्रोसॉफ्ट ने छोटे पैरामीटर मॉडल Phi-4 को पेश किया, जो केवल 14 अरब पैरामीटर में कई प्रसिद्ध मॉडलों को पीछे छोड़ देता है।**

📊 ** कई प्रदर्शन परीक्षणों में, Phi-4 ने उत्कृष्ट प्रदर्शन किया, विशेष रूप से गणित और तर्क के क्षेत्रों में।**

🌐 Phi-4 अब ओपन-सोर्स है और व्यावसायिक उपयोग का समर्थन करता है, जो कई डेवलपर्स का ध्यान आकर्षित कर रहा है।