एक चिकित्सा एआई मूल्यांकन पर केंद्रित शोध पत्र में, माइक्रोसॉफ्ट ने फिर से "अनजाने में" उद्योग के कई शीर्ष बड़े भाषा मॉडलों के पैरामीटर आकार का खुलासा किया है। 26 दिसंबर को प्रकाशित इस पत्र ने OpenAI, Anthropic सहित कई कंपनियों के मॉडल पैरामीटर डेटा को उजागर किया, और यह मॉडल आर्किटेक्चर और तकनीकी क्षमता पर उद्योग में गर्म चर्चा का कारण बना।
पत्र के अनुसार, OpenAI का o1-preview मॉडल लगभग 300B पैरामीटर है, GPT-4o लगभग 200B है, जबकि GPT-4o-mini केवल 8B पैरामीटर है। यह NVIDIA द्वारा इस वर्ष की शुरुआत में घोषित GPT-4 के 1.76T MoE आर्किटेक्चर के कथन के साथ स्पष्ट विपरीत है। साथ ही, पत्र में Claude3.5Sonnet के पैरामीटर आकार के बारे में भी जानकारी दी गई है, जो लगभग 175B है।
यह माइक्रोसॉफ्ट द्वारा मॉडल पैरामीटर जानकारी "लीक" करने का पहला मामला नहीं है। पिछले साल अक्टूबर में, माइक्रोसॉफ्ट ने एक पत्र में GPT-3.5-Turbo के 20B पैरामीटर आकार का खुलासा किया था, जिसके बाद एक अद्यतन संस्करण में इस जानकारी को हटा दिया गया। इस प्रकार की बार-बार "लीक" ने उद्योग में कुछ विशेष इरादे की अटकलें पैदा की हैं।
यह ध्यान देने योग्य है कि इस पत्र का मुख्य उद्देश्य MEDEC नामक चिकित्सा क्षेत्र के बेंचमार्क परीक्षण को प्रस्तुत करना है। शोध टीम ने अमेरिका के तीन अस्पतालों से 488 नैदानिक नोटों का विश्लेषण किया, और विभिन्न मॉडलों की चिकित्सा दस्तावेज़ त्रुटियों की पहचान और सुधारने की क्षमता का मूल्यांकन किया। परीक्षण परिणामों से पता चलता है कि Claude3.5Sonnet त्रुटि पहचान में 70.16 के स्कोर के साथ अन्य मॉडलों से आगे है।
उद्योग में इन डेटा की प्रामाणिकता पर गर्म चर्चा हुई है। कुछ का मानना है कि यदि Claude3.5Sonnet वास्तव में छोटे पैरामीटर आकार के साथ उत्कृष्ट प्रदर्शन करता है, तो यह Anthropic की तकनीकी क्षमता को उजागर करेगा। कुछ विश्लेषकों ने मॉडल की कीमतों के माध्यम से पीछे की ओर अनुमान लगाया है, और माना है कि कुछ पैरामीटर का अनुमान उचित है।
विशेष रूप से ध्यान देने योग्य है कि पत्र केवल मुख्यधारा के मॉडल पैरामीटर का अनुमान लगाता है, लेकिन Google Gemini के विशिष्ट पैरामीटर का उल्लेख नहीं करता। कुछ विश्लेषकों का मानना है कि यह Gemini के TPU का उपयोग करने और NVIDIA GPU का उपयोग न करने से संबंधित हो सकता है, जिससे टोकन जनरेशन गति के माध्यम से सटीक अनुमान लगाना मुश्किल हो गया है।
जैसे-जैसे OpenAI अपने ओपन-सोर्स वादे को कम कर रहा है, मॉडल पैरामीटर जैसे核心信息 उद्योग में निरंतर ध्यान का केंद्र बन सकते हैं। यह आकस्मिक लीक फिर से एआई मॉडल आर्किटेक्चर, तकनीकी मार्ग और व्यावसायिक प्रतिस्पर्धा पर गहन विचारों को उत्पन्न करता है।
संदर्भ सामग्री:
https://arxiv.org/pdf/2412.19260
https://x.com/Yuchenj_UW/status/1874507299303379428
https://www.reddit.com/r/LocalLLaMA/comments/1f1vpyt/why_gpt_4o_mini_is_probably_around_8b_active/