लेख ने हजार अरब स्तर के पैरामीटर बड़े मॉडल की गणना शक्ति की आवश्यकताओं का विस्तृत विश्लेषण किया। उदाहरण के लिए, लांगशेन सूचना द्वारा स्व-विकसित चीनी बड़े मॉडल स्रोत 1.0 ने 266 8-कार्ड A100 सर्वरों का उपयोग किया, जिसमें एकल कार्ड की गणना दक्षता 44% तक पहुंच गई, और इसने टेन्सर समानांतर, पाइपलाइन समानांतर और डेटा समानांतर की त्रि-आयामी समानांतर रणनीति का उपयोग किया। लेख में प्रस्तावित किया गया है कि बड़े मॉडल के प्रदर्शन को बढ़ाने के लिए, ढांचे, IO, संचार आदि के कई पहलुओं से अनुकूलन की आवश्यकता है। GPT-4 की तुलना में, घरेलू बड़े मॉडल में गणना शक्ति, एल्गोरिदम, डेटा आदि के मामलों में अभी भी काफी अंतर है। बड़े मॉडल के प्रदर्शन को बढ़ाने के लिए तकनीकी अनुसंधान और विकास में निरंतर वृद्धि की आवश्यकता है।
सेंकड़ों अरबों पैरामीटर वाले बड़े मॉडल को कितनी कंप्यूटिंग शक्ति की आवश्यकता है
