माइक्रोसॉफ्ट ने हाल ही में हगिंग फेस प्लेटफार्म पर Phi-4 नामक एक छोटे भाषा मॉडल को जारी किया है, जिसमें केवल 14 अरब पैरामीटर हैं, लेकिन कई प्रदर्शन परीक्षणों में उत्कृष्ट प्रदर्शन किया है, जो कई प्रसिद्ध मॉडलों को पीछे छोड़ देता है, जिनमें OpenAI का GPT-4o और अन्य समान ओपन-सोर्स मॉडल जैसे Qwen2.5 और Llama-3.1 शामिल हैं।
अमेरिका के गणित प्रतियोगिता AMC के पिछले परीक्षण में, Phi-4 ने 91.8 अंक प्राप्त किए, जो Gemini Pro1.5, Claude3.5Sonnet जैसे प्रतिस्पर्धियों की तुलना में काफी बेहतर है। और भी आश्चर्य की बात यह है कि इस छोटे पैरामीटर मॉडल ने MMLU परीक्षण में 84.8 का उच्च स्कोर प्राप्त किया, जो इसकी मजबूत तर्क शक्ति और गणितीय प्रसंस्करण क्षमताओं को पूरी तरह से दर्शाता है।
कई जैविक डेटा स्रोतों पर निर्भर मॉडलों के विपरीत, Phi-4 ने उच्च गुणवत्ता वाले संश्लेषित डेटा उत्पन्न करने के लिए नवोन्मेषी तरीकों को अपनाया है, जिसमें मल्टी-एजेंट संकेत, निर्देश उलटने और आत्म-सुधार जैसी तकनीकें शामिल हैं। ये तरीके Phi-4 की तर्क और समस्या समाधान क्षमताओं को काफी बढ़ाते हैं, जिससे यह अधिक जटिल कार्यों को संभालने में सक्षम होता है।
Phi-4 ने केवल डिकोडर के ट्रांसफार्मर आर्किटेक्चर को अपनाया है, जो 16k तक के संदर्भ की लंबाई का समर्थन करता है, जो बड़े इनपुट डेटा को संभालने के लिए बहुत उपयुक्त है। इसके पूर्व-प्रशिक्षण में लगभग 100 ट्रिलियन टोकन का उपयोग किया गया, जिसमें संश्लेषित डेटा और सख्त छानबीन किए गए जैविक डेटा को मिलाया गया, यह सुनिश्चित करने के लिए कि MMLU और HumanEval जैसे बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन किया जाए।
Phi-4 की विशेषताएँ और लाभों में शामिल हैं: उपभोक्ता स्तर के हार्डवेयर के लिए कॉम्पैक्टनेस और दक्षता; STEM संबंधित कार्यों में पूर्ववर्ती और बड़े मॉडलों की तर्क क्षमताओं को पार करना; विविध संश्लेषित डेटा सेट के साथ फाइन-ट्यूनिंग का समर्थन करना, जो विशिष्ट क्षेत्रों की आवश्यकताओं को पूरा करने में सहायक है। इसके अलावा, Phi-4 ने हगिंग फेस प्लेटफार्म पर विस्तृत दस्तावेज़ और API प्रदान किया है, जिससे डेवलपर्स के लिए एकीकरण करना आसान हो गया है।
तकनीकी नवाचार के संदर्भ में, Phi-4 का विकास मुख्य रूप से तीन स्तंभों पर निर्भर करता है: संश्लेषित डेटा उत्पन्न करने के लिए मल्टी-एजेंट और आत्म-सुधार तकनीक, बाद में प्रशिक्षण वृद्धि विधियाँ जैसे कि अस्वीकृति नमूनाकरण और प्रत्यक्ष प्राथमिकता अनुकूलन (DPO), और सख्त छानबीन किए गए प्रशिक्षण डेटा, यह सुनिश्चित करने के लिए कि बेंचमार्क के ओवरलैप डेटा को न्यूनतम किया जाए, जिससे मॉडल की सामान्यीकरण क्षमता में सुधार होता है। इसके अलावा, Phi-4 महत्वपूर्ण टोकन खोज (PTS) का उपयोग करता है ताकि निर्णय प्रक्रिया में महत्वपूर्ण नोड्स की पहचान की जा सके, जिससे यह जटिल तर्क कार्यों को संभालने की अपनी क्षमता को अनुकूलित करता है।
Phi-4 के ओपन-सोर्स होने के साथ, डेवलपर्स की उम्मीदें आखिरकार सच हो गई हैं। यह मॉडल न केवल हगिंगफेस प्लेटफार्म पर डाउनलोड के लिए उपलब्ध है, बल्कि MIT लाइसेंस के तहत व्यावसायिक उपयोग का समर्थन भी करता है। यह ओपन पॉलिसी बड़ी संख्या में डेवलपर्स और AI उत्साही लोगों का ध्यान आकर्षित कर रही है, हगिंगफेस के आधिकारिक सोशल मीडिया ने भी इसे "अब तक का सबसे अच्छा 14B मॉडल" कहते हुए बधाई दी है।
मॉडल लिंक: https://huggingface.co/microsoft/phi-4
मुख्य बिंदु:
🧠 ** माइक्रोसॉफ्ट ने छोटे पैरामीटर मॉडल Phi-4 को पेश किया, जो केवल 14 अरब पैरामीटर में कई प्रसिद्ध मॉडलों को पीछे छोड़ देता है।**
📊 ** कई प्रदर्शन परीक्षणों में, Phi-4 ने उत्कृष्ट प्रदर्शन किया, विशेष रूप से गणित और तर्क के क्षेत्रों में।**
🌐 Phi-4 अब ओपन-सोर्स है और व्यावसायिक उपयोग का समर्थन करता है, जो कई डेवलपर्स का ध्यान आकर्षित कर रहा है।