लेख ने हजार अरब स्तर के पैरामीटर बड़े मॉडल की गणना शक्ति की आवश्यकताओं का विस्तृत विश्लेषण किया। उदाहरण के लिए, लांगशेन सूचना द्वारा स्व-विकसित चीनी बड़े मॉडल स्रोत 1.0 ने 266 8-कार्ड A100 सर्वरों का उपयोग किया, जिसमें एकल कार्ड की गणना दक्षता 44% तक पहुंच गई, और इसने टेन्सर समानांतर, पाइपलाइन समानांतर और डेटा समानांतर की त्रि-आयामी समानांतर रणनीति का उपयोग किया। लेख में प्रस्तावित किया गया है कि बड़े मॉडल के प्रदर्शन को बढ़ाने के लिए, ढांचे, IO, संचार आदि के कई पहलुओं से अनुकूलन की आवश्यकता है। GPT-4 की तुलना में, घरेलू बड़े मॉडल में गणना शक्ति, एल्गोरिदम, डेटा आदि के मामलों में अभी भी काफी अंतर है। बड़े मॉडल के प्रदर्शन को बढ़ाने के लिए तकनीकी अनुसंधान और विकास में निरंतर वृद्धि की आवश्यकता है।
सेंकड़ों अरबों पैरामीटर वाले बड़े मॉडल को कितनी कंप्यूटिंग शक्ति की आवश्यकता है

CSDN
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।