एक चिकित्सा एआई मूल्यांकन पर केंद्रित शोध पत्र में, माइक्रोसॉफ्ट ने फिर से "अनजाने में" उद्योग के कई शीर्ष बड़े भाषा मॉडलों के पैरामीटर आकार का खुलासा किया है। 26 दिसंबर को प्रकाशित इस पत्र ने OpenAI, Anthropic सहित कई कंपनियों के मॉडल पैरामीटर डेटा को उजागर किया, और यह मॉडल आर्किटेक्चर और तकनीकी क्षमता पर उद्योग में गर्म चर्चा का कारण बना।

पत्र के अनुसार, OpenAI का o1-preview मॉडल लगभग 300B पैरामीटर है, GPT-4o लगभग 200B है, जबकि GPT-4o-mini केवल 8B पैरामीटर है। यह NVIDIA द्वारा इस वर्ष की शुरुआत में घोषित GPT-4 के 1.76T MoE आर्किटेक्चर के कथन के साथ स्पष्ट विपरीत है। साथ ही, पत्र में Claude3.5Sonnet के पैरामीटर आकार के बारे में भी जानकारी दी गई है, जो लगभग 175B है।

image.png

यह माइक्रोसॉफ्ट द्वारा मॉडल पैरामीटर जानकारी "लीक" करने का पहला मामला नहीं है। पिछले साल अक्टूबर में, माइक्रोसॉफ्ट ने एक पत्र में GPT-3.5-Turbo के 20B पैरामीटर आकार का खुलासा किया था, जिसके बाद एक अद्यतन संस्करण में इस जानकारी को हटा दिया गया। इस प्रकार की बार-बार "लीक" ने उद्योग में कुछ विशेष इरादे की अटकलें पैदा की हैं।

image.png

यह ध्यान देने योग्य है कि इस पत्र का मुख्य उद्देश्य MEDEC नामक चिकित्सा क्षेत्र के बेंचमार्क परीक्षण को प्रस्तुत करना है। शोध टीम ने अमेरिका के तीन अस्पतालों से 488 नैदानिक नोटों का विश्लेषण किया, और विभिन्न मॉडलों की चिकित्सा दस्तावेज़ त्रुटियों की पहचान और सुधारने की क्षमता का मूल्यांकन किया। परीक्षण परिणामों से पता चलता है कि Claude3.5Sonnet त्रुटि पहचान में 70.16 के स्कोर के साथ अन्य मॉडलों से आगे है।

image.png

उद्योग में इन डेटा की प्रामाणिकता पर गर्म चर्चा हुई है। कुछ का मानना है कि यदि Claude3.5Sonnet वास्तव में छोटे पैरामीटर आकार के साथ उत्कृष्ट प्रदर्शन करता है, तो यह Anthropic की तकनीकी क्षमता को उजागर करेगा। कुछ विश्लेषकों ने मॉडल की कीमतों के माध्यम से पीछे की ओर अनुमान लगाया है, और माना है कि कुछ पैरामीटर का अनुमान उचित है।

image.png

विशेष रूप से ध्यान देने योग्य है कि पत्र केवल मुख्यधारा के मॉडल पैरामीटर का अनुमान लगाता है, लेकिन Google Gemini के विशिष्ट पैरामीटर का उल्लेख नहीं करता। कुछ विश्लेषकों का मानना है कि यह Gemini के TPU का उपयोग करने और NVIDIA GPU का उपयोग न करने से संबंधित हो सकता है, जिससे टोकन जनरेशन गति के माध्यम से सटीक अनुमान लगाना मुश्किल हो गया है।

image.png

जैसे-जैसे OpenAI अपने ओपन-सोर्स वादे को कम कर रहा है, मॉडल पैरामीटर जैसे核心信息 उद्योग में निरंतर ध्यान का केंद्र बन सकते हैं। यह आकस्मिक लीक फिर से एआई मॉडल आर्किटेक्चर, तकनीकी मार्ग और व्यावसायिक प्रतिस्पर्धा पर गहन विचारों को उत्पन्न करता है।

संदर्भ सामग्री:

https://arxiv.org/pdf/2412.19260

https://x.com/Yuchenj_UW/status/1874507299303379428

https://www.reddit.com/r/LocalLLaMA/comments/1f1vpyt/why_gpt_4o_mini_is_probably_around_8b_active/