माइक्रोसॉफ्ट पेपर ने OpenAI मॉडल के पैरामीटर का फिर से खुलासा किया? मेडिकल एआई परीक्षण ने अप्रत्याशित रूप से 4o-mini के केवल 8B का खुलासा किया

AIbase基地

द्वारा प्रकाशितAI समाचार · 5 मिनट पढ़ें · Jan 2, 2025

414

एक चिकित्सा एआई मूल्यांकन पर केंद्रित शोध पत्र में, माइक्रोसॉफ्ट ने फिर से "अनजाने में" उद्योग के कई शीर्ष बड़े भाषा मॉडलों के पैरामीटर आकार का खुलासा किया है। 26 दिसंबर को प्रकाशित इस पत्र ने OpenAI, Anthropic सहित कई कंपनियों के मॉडल पैरामीटर डेटा को उजागर किया, और यह मॉडल आर्किटेक्चर और तकनीकी क्षमता पर उद्योग में गर्म चर्चा का कारण बना।

पत्र के अनुसार, OpenAI का o1-preview मॉडल लगभग 300B पैरामीटर है, GPT-4o लगभग 200B है, जबकि GPT-4o-mini केवल 8B पैरामीटर है। यह NVIDIA द्वारा इस वर्ष की शुरुआत में घोषित GPT-4 के 1.76T MoE आर्किटेक्चर के कथन के साथ स्पष्ट विपरीत है। साथ ही, पत्र में Claude3.5Sonnet के पैरामीटर आकार के बारे में भी जानकारी दी गई है, जो लगभग 175B है।

यह माइक्रोसॉफ्ट द्वारा मॉडल पैरामीटर जानकारी "लीक" करने का पहला मामला नहीं है। पिछले साल अक्टूबर में, माइक्रोसॉफ्ट ने एक पत्र में GPT-3.5-Turbo के 20B पैरामीटर आकार का खुलासा किया था, जिसके बाद एक अद्यतन संस्करण में इस जानकारी को हटा दिया गया। इस प्रकार की बार-बार "लीक" ने उद्योग में कुछ विशेष इरादे की अटकलें पैदा की हैं।

यह ध्यान देने योग्य है कि इस पत्र का मुख्य उद्देश्य MEDEC नामक चिकित्सा क्षेत्र के बेंचमार्क परीक्षण को प्रस्तुत करना है। शोध टीम ने अमेरिका के तीन अस्पतालों से 488 नैदानिक नोटों का विश्लेषण किया, और विभिन्न मॉडलों की चिकित्सा दस्तावेज़ त्रुटियों की पहचान और सुधारने की क्षमता का मूल्यांकन किया। परीक्षण परिणामों से पता चलता है कि Claude3.5Sonnet त्रुटि पहचान में 70.16 के स्कोर के साथ अन्य मॉडलों से आगे है।

उद्योग में इन डेटा की प्रामाणिकता पर गर्म चर्चा हुई है। कुछ का मानना है कि यदि Claude3.5Sonnet वास्तव में छोटे पैरामीटर आकार के साथ उत्कृष्ट प्रदर्शन करता है, तो यह Anthropic की तकनीकी क्षमता को उजागर करेगा। कुछ विश्लेषकों ने मॉडल की कीमतों के माध्यम से पीछे की ओर अनुमान लगाया है, और माना है कि कुछ पैरामीटर का अनुमान उचित है।

विशेष रूप से ध्यान देने योग्य है कि पत्र केवल मुख्यधारा के मॉडल पैरामीटर का अनुमान लगाता है, लेकिन Google Gemini के विशिष्ट पैरामीटर का उल्लेख नहीं करता। कुछ विश्लेषकों का मानना है कि यह Gemini के TPU का उपयोग करने और NVIDIA GPU का उपयोग न करने से संबंधित हो सकता है, जिससे टोकन जनरेशन गति के माध्यम से सटीक अनुमान लगाना मुश्किल हो गया है।

जैसे-जैसे OpenAI अपने ओपन-सोर्स वादे को कम कर रहा है, मॉडल पैरामीटर जैसे核心信息 उद्योग में निरंतर ध्यान का केंद्र बन सकते हैं। यह आकस्मिक लीक फिर से एआई मॉडल आर्किटेक्चर, तकनीकी मार्ग और व्यावसायिक प्रतिस्पर्धा पर गहन विचारों को उत्पन्न करता है।

संदर्भ सामग्री:

https://arxiv.org/pdf/2412.19260

https://x.com/Yuchenj_UW/status/1874507299303379428

https://www.reddit.com/r/LocalLLaMA/comments/1f1vpyt/why_gpt_4o_mini_is_probably_around_8b_active/

माइक्रोसॉफ्ट के सीईओ ने कहा कि एआई मॉडल का व्यावसायीकरण हो रहा है, सिस्टम इंटीग्रेशन और उत्पाद विकास महत्वपूर्ण हैं

हाल ही में एक पॉडकास्ट में, माइक्रोसॉफ्ट के मुख्य कार्यकारी अधिकारी सत्य नडेला ने कहा कि भाषा मॉडल के परिपक्व होने के साथ, एआई मॉडल मानकीकरण और व्यावसायीकरण की ओर बढ़ रहे हैं। उन्होंने कहा कि इस बदलाव ने व्यवसायों को कृत्रिम बुद्धिमत्ता (एआई) विकास में अपनी रणनीतिक प्राथमिकता को केवल मॉडल अनुसंधान और विकास से सिस्टम इंटीग्रेशन और उत्पाद विकास में स्थानांतरित करने के लिए प्रेरित किया है। नडेला ने जोर देकर कहा कि मॉडल अपने आप में पर्याप्त नहीं हैं, व्यवसायों को पूरे सिस्टम आर्किटेक्चर और सफल उत्पादों पर ध्यान केंद्रित करने की आवश्यकता है। उनका मानना है कि वर्तमान एआई उद्योग "लहर जैसी गतिविधि" का अनुभव कर रहा है, 2022 के नवंबर से

मस्क के पास OpenAI के मुनाफ़े वाले बदलाव को रोकने का अभी भी मौका हो सकता है

हाल ही में, टेस्ला के सीईओ मस्क और OpenAI के बीच कानूनी लड़ाई फिर से सुर्खियों में है। मस्क के मुकदमे में आरोप लगाया गया है कि OpenAI ने मुनाफ़े वाली कंपनी बनने के दौरान अपने शुरुआती गैर-लाभकारी मिशन को त्याग दिया है। OpenAI की स्थापना 2015 में एक गैर-लाभकारी संस्थान के रूप में हुई थी, लेकिन 2019 में इसे 'सीमित लाभ' संरचना में बदल दिया गया, और अब यह आगे चलकर सार्वजनिक हित वाली कंपनी बनने की योजना बना रहा है। मस्क ने अदालत से OpenAI के मुनाफ़े वाले बदलाव पर अस्थायी रोक लगाने का अनुरोध किया था, लेकिन कैलिफ़ोर्निया के उत्तरी जिले की...

रिपोर्टों में दावा किया गया है कि माइक्रोसॉफ्ट ने ओपनएआई को चुनौती देने के लिए अपना स्वयं का एआई मॉडल MAI विकसित किया है

नई रिपोर्टों के अनुसार, माइक्रोसॉफ्ट ने ओपनएआई के बड़े भाषा मॉडल जैसे ChatGPT को चुनौती देने के लिए एक नया स्वायत्त एआई मॉडल, MAI, विकसित किया है। यह कदम तकनीकी क्षेत्र में बढ़ती प्रतिस्पर्धा को दर्शाता है।

अली बाबा के टोंगयी कियानवेन रिज़निंग बड़े मॉडल QwQ-32B ने वैश्विक ओपन सोर्स समुदाय रैंकिंग में प्रथम स्थान प्राप्त किया

अलीबाबा के टोंगयी कियानवेन द्वारा विकसित QwQ-32B नामक एक बड़े भाषा मॉडल ने वैश्विक ओपन सोर्स समुदाय में रैंकिंग में पहला स्थान हासिल किया है। यह मॉडल अपनी उन्नत तर्क क्षमताओं के लिए जाना जाता है।

AI समाचार

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

मस्क के पास OpenAI के मुनाफ़े वाले बदलाव को रोकने का अभी भी मौका हो सकता है